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内 容 提要 


本 书 作为 算法 领域 经 典 的 参考 书 ， 全 面 介绍 了 关于 算法 和 数据 结构 的 必 备 知识 ， 并 特别 针对 排序 、 
搜索 、 图 处 理 和 字符 串 处 理 进行 了 论述 。 第 4 版 具体 给 出 了 每 位 程序 员 应 知 应 会 的 50 个 算法 ， 提 供 了 实 
际 代码 ， 而 且 这 些 Java 代码 实现 采用 了 模块 化 的 编程 风格 ， 读 者 可 以 方便 地 加 以 改造 。 配 套 网 站 提供 了 
本 书 内 容 的 摘要 及 更 多 的 代码 实现 、 测 试 数据 、 练 习 、 教 学 课件 等 资源 

本 书 适合 用 做 大 学 教材 或 从 业者 的 参考 书 。 
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译 者 序 


在 计算 机 领域 ,算法 是 一 个 永恒 的 主题 。 即 使 仅 把 算法 入 门 方面 的 书 都 摆 出 来 ， 国 内 外 的 加 起 
来 怕 是 能 铺 满 整个 天 安 门 广场 。 在 这 些 书 中 ， 有 几 本 尤其 与 众 不 同 ， 本 书 就 是 其 中 之 一 


本 书 是 学 生 的 良 师 。 在 翻译 的 过 程 中 我 曾 无 数 次 感叹 : “要 是 当年 我 能 拥有 这 本 书 那 该 多 好 ! " 
应 该 说 本 书 是 为 在 校 学 生 量 身 打造 的 。 没 有 数学 基础 ? 没关系 ， 只 要 你 在 高 中 学 过 了 数学 归纳 法 ， 那 
么 书 中 95% 以 上 的 数学 内 容 你 都 可 以 看 得 懂 ， 更 何况 书 中 还 轴 以 大 量 图 例 。 没 学 过 编程 ?没关系 ， 第 
] 章 会 给 大 家 介绍 足够 多 的 Java 知 识 ， 即 使 你 不 是 计算 机 专业 的 学 生 ， 也 不 会 遇 到 困难 。 整 本 书 的 内 
容 编排 循序 渐进 ， 由 易 到 难 ， 前 后 呼应 ， 足 见 作者 的 良 苦 用 心 。 没 有 比 本 书 更 专业 的 算法 教科 书 了 。 


本 书 是 老师 的 好 帮手 。 如 果 老 师 们 还 只 能 照 本 宣 科 ， 只 能 停留 在 算法 本 身 一 二 三 四 的 阶段 ， 
那 就 已 经 大 大 落后 于 这 个 时 代 了 。 算 法 并 不 仅仅 是 计算 的 方法 ， 探 完 短 法 的 过 程 反映 出 的 是 我 们 对 
这 个 世界 的 认 知 方法 : 是 唯 唯 诺 诺 地 将 课本 当做 圣经 ， 还 是 通过 “实验 一 失败 一 再 实验 ”循环 的 狂 
炼 ? 数学 是 保证 ， 数 据 是 验证 。 本 书 通过 各 种 算法 ， 从 各 个 角度 ， 多 次 说 明了 这 个 道理 ， 这 也 正 是 
第 1 章 是 全 书 内 容 最 多 的 一 章 的 原因 。 希 望 每 一 位 读者 都 不 要 错过 第 1 章 。 无 论 你 有 没有 编程 基础 
都 会 从 中 得 到 有 益 的 启示 。 


本 书 是 程序 员 的 益友 。 在 工作 了 多 年 之 后 ， 快 速 排序 、 堆 夫 曼 编码 、KMP 等 曾经 熟悉 的 概念 在 你 
脑 中 是 不 是 已 经 凋零 成 了 一 个 个 没有 内 涵 的 名 词 ? 是 时 候 重新 拾 起 它们 了 。 无 论 是 为 手头 的 工作 寻找 
线索 ， 还 是 为 下 一 份 工作 努力 准备 ， 这 些 算法 基础 知识 都 是 你 不 能 跳 过 的 。 本 书 强调 软件 工程 中 的 最 
佳 实践 ， 特 别 适 合 已 有 工作 经 验 的 程序 员 朋友 。 所 有 的 算法 都 是 先 有 API， 再 有 实现 ， 之 后 是 证 明 ， 最 
后 是 数据 。 这 种 先 接口 后 实现 、 强 调 测 试 的 做 法 ， 无 疑 是 在 工作 中 措 候 滚 打 多 年 的 程序 员 最 熟悉 的 


本 书 也 有 一 些 遗 岩 ， 比 如 没有 介绍 动态 规划 这 样 重要 的 思想 。 但 是 瑕 不 掩 玉 ， 它 仍然 是 最 好 的 
入门 级 算法 书 。 我 强烈 地 希望 能 够 把 本 书 翻译 成 中 文 ， 但 同时 也 诚 恤 诚 恺 ， 如 履 薄 冰 ， 担 心 自己 的 
水 平 不 足以 准确 传达 原文 的 意思 。 翻 译 的 过 程 虽 然 辛苦 ， 但 我 觉得 非常 值得 。 感 谢 人 民 邮 电 出 版 社 
图 灵 公 司 给 了 我 这 个 机 会 感谢 编辑 和 审 稿 专家 的 细心 检查 。 同 时 感谢 我 的 妻子 朱 天 的 全 力 支持 。 
译 者 水 平 有 限 ，bug 在 所 难免 ， 还 请 读者 批评 指正 。 


谢 路 云 
2012.9.17 
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本 书 力图 研究 当今 最 重要 的 计算 机 算法 并 将 一 些 最 基础 的 技能 传授 给 广大 求知 者 。 它 适合 用 做 
计算 机 科学 进 阶 教材 ， 面 向 已 经 熟悉 了 计算 机 系统 并 掌握 了 基本 编程 技能 的 学 生 。 本 书 也 可 用 于 自 
学 ， 或 是 作为 开发 人 员 的 参考 手册 ， 因 为 书 中 实现 了 许多 实用 算法 并 详尽 分 析 了 它们 的 性 能 特点 和 
用 途 。 这 本 书 取材 广泛 ， 很 适合 作为 该 领域 的 人 门 教材 。 


算法 和 数据 结构 的 学 习 是 所 有 计算 机 科学 教学 计划 的 基础 ， 但 它 并 不 只 是 对 程序 员 和 计算 机 
系 的 学 生 有 用 。 任 何 计算 机 使 用 者 都 希望 计算 机 能 运行 得 更 快 一 些 或 是 能 解决 更 大 规模 的 问题 。 本 
书 中 的 算法 代表 了 近 50 年 来 的 大 量 优秀 研究 成 果 ， 是 人 们 工作 中 必 备 的 知识 。 从 物理 中 的 N 体 模拟 
问题 到 分 子 生物 学 中 的 基因 序列 问题 ， 我 们 描述 的 基本 方法 对 科学 研究 而 言 已 经 必 不 可 少 ; 从 建筑 
建 模 系统 到 模拟 飞行 器 ， 这 些 算法 已 经 成 为 工程 领域 极其 重要 的 工具 ; 从 数据 库 系统 到 互联 网 搜索 
引擎 ,算法 已 成 为 现代 软件 系统 中 不 可 或 缺 的 一 部 分 。 这 仅 是 几 个 例子 而 已 ， 随 着 计算 机 应 用 领域 
的 不 断 扩 张 ， 这 些 基础 方法 的 影响 也 会 不 断 扩大 。 


在 开始 学 习 这 些 基础 算法 之 前 ,我们 先 要 熟悉 全 书 中 都 将 会 用 到 的 栈 、 队 列 等 低级 抽象 的 数据 
类 型 。 然 后 依次 研究 排序 、 搜 索 、 图 和 字符 串 方面 的 基础 算法 。 最 后 一 章 将 会 从 宏观 角度 总 结 全 书 
的 内 容 。 


独特 之 处 


本 书 致力 于 研究 有 实用 价值 的 算法 。 书 中 讲解 了 多 种 算法 和 数据 结构 ， 并 提供 了 大 量 相关 的 信 
息 ， 读 者 应 该 能 有 信心 在 各 种 计算 环境 下 实现 、 调 试 并 应 用 它们 。 本 书 的 特点 涉及 以 下 几 个 方面 


算法 书 中 均 有 算法 的 完整 实现 ， 并 讨论 了 程序 在 多 个 样 例 上 的 运行 状况 。 书 中 的 代码 都 是 可 
以 运行 的 程序 而 非 伪 代码 ， 因 此 非常 便于 投入 使 用 。 书 中 程序 是 用 Java 语 言 编写 的 ， 但 其 编程 风格 
方便 读者 使 用 其 他 现代 编程 语言 重用 其 中 的 大 部 分 代码 来 实现 相同 算法 。 


数据 类 型 ”我 们 在 数据 抽象 上 采用 了 现代 编程 风格 ， 将 数据 结构 和 算法 封装 在 了 一 起 。 


应 用 每 一 章 都 会 给 出 所 述 算法 起 到 关键 作用 的 应 用 场景 。 这 些 场景 多 种 多 样 ， 包 括 物理 模拟 
与 分 子 生物 学 、 计 算 机 与 系统 工程 学 ， 以 及 我 们 熟悉 的 数据 压缩 和 网 络 搜索 等 。 


学 术 性 我 们 非常 重视 使 用 数学 模型 来 描述 算法 的 性 能 。 我 们 用 模型 预测 算法 的 性 能 ， 然 后 在 
真实 的 环境 中 运行 程序 来 验证 预测 。 





广度 本 书 讨论 了 基本 的 抽象 数据 类 型 、 排 序 算法 、 搜 索 算 法 、 图 及 字符 串 处 理 。 我 们 在 算法 


前 言 可 VII 


的 讨论 中 研究 数据 结构 、 算 法 设计 范式 、 归 纳 法 和 解 题 模型 。 这 将 涵盖 20 世 纪 60 年 代 以 来 的 经 典 方 
法 以 及 近年 来 产生 的 新 方法 。 


我 们 的 主要 目标 是 将 今天 最 重要 的 实用 算法 介绍 给 尽 可 能 广泛 的 群体 。 这 些 算法 一 般 都 十 分 巧 
妙 奇 特 ，20 行 左右 的 代码 就 足以 表达 。 它 们 展现 出 的 问题 解决 能 力 令 人 叹为观止 。 没 有 它们 ， 创 造 
计算 智能 、 解 决 科 学 问题 、 开 发 商业 软件 都 是 不 可 能 的 。 


本 书 网 站 


本 书 的 一 个 亮点 是 它 的 配套 网 站 algs4.cs.princeton.edu。 这 一 网 站 面向 教师 、 学 生 和 专业 人 十 ， 
免费 提供 关于 算法 和 数据 结构 的 丰富 资料 。 


一 份 在 线 大 纲 包含 了 本 书 内 容 的 结构 并 提供 了 链接 ， 浏 览 起 来 十 分 方便 。 


全 部 实现 代码 “” 书 中 所 有 的 代码 均 可 以 在 这 里 找到 ， 且 其 形式 适合 用 于 程序 开发 。 此 外 ， 还 包 
括 算法 的 其 他 实现 ， 例 如 高 级 的 实现 、 书 中 提 及 的 改进 的 实现 、 部 分 习题 的 答案 以 及 多 个 应 用 场景 的 
客户 端 代码 。 我 们 的 重点 是 用 真实 的 应 用 环境 来 测试 算法 。 

习题 与 答案 ”网 站 还 提供 了 一 些 附加 的 选择 题 (只 需要 一 次 单 击 便 可 获取 答案 ) 、 很 多 算法 应 
用 的 例子 、 编 程 练习 和 答案 以 及 一 些 有 挑战 性 的 难题 。 


动态 可 视 化 书 是 死 的 ， 但 网 站 是 活 的 ， 在 这 里 我 们 充分 利用 图 形 类 演示 了 算法 的 应 用 效果 。 


课程 资料 “网 站 包含 和 本 书 及 网 上 内 容 对 应 的 一 整套 幻灯 片 ， 以 及 一 系列 编程 作业 、 核 对 表 、 
测试 数据 和 备课 手册 。 


相关 资料 链接 ”网 站 包含 大 量 的 链接 ， 提 供 算法 应 用 的 更 多 背景 知识 以 及 学 习 算 法 的 其 他 资源 。 


我 们 希望 这 个 站 点 和 本 书 互 为 补充 。 一 般 来 说 ， 建 议 读者 在 第 一 次 学 习 某 种 算法 或 是 希望 获得 
整体 概念 时 看 书 ， 并 把 网 站 作为 编程 时 的 参考 或 是 在 线 查找 更 多 信息 的 起 点 。 


作为 教材 


本 书 为 计算 机 科学 专业 进 阶 的 教材 涵盖 了 这 门 学 科 的 核心 内 容 ， 并 能 让 学 生 充分 锻炼 编程 、 
定量 推理 和 解决 问题 等 方面 的 能 力 。 一 般 来 说 ， 此 前 学 过 一 门 计算 机 方面 的 先导 课程 就 足 侨 ， 只 要 
熟悉 一 门 现代 编程 语言 并 熟知 现代 计算 机 系统 ， 就 都 能 够 阅读 本 书 。 


虽然 本 书 使 用 Java 实 现 算法 和 数据 结构 ， 但 其 代码 风格 使 得 熟悉 其 他 现代 编程 语言 的 人 也 能 看 
慌 。 我 们 充分 利用 了 Java 的 抽象 性 (包括 泛 型 ) ， 但 不 会 依赖 这 门 语言 的 独门 特性 。 


书 中 涉及 的 多 数 数学 知识 都 有 完整 的 讲解 (少数 会 有 延伸 阅读 ) ， 因 此 阅读 本 书 并 不 需要 准备 
太 多 数学 知识 ， 不 过 有 一 定 的 数学 基础 当然 更 好 。 应 用 场景 都 来 自 其 他 学 科 的 基础 内 容 ， 同 样 也 在 
书 中 有 完整 介绍 。 


本 书 涉及 的 内 容 是 任何 准备 主 修 计算 机 科学 、 电 气 工程 、 运 筹 学 等 专业 的 学 生 应 了 解 的 基础 知 
识 ， 并 且 对 所 有 对 科学 、 数 学 或 工程 学 感 兴趣 的 学 生 也 十 分 有 价值 。 


VI 前 言 


背景 介绍 

这 本 书 意 在 接续 我 们 的 一 本 基础 教材 《Java 程 序 设计 : 一 种 跨 学 科 的 方法 》， 那 本 书 对 计算 机 
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学 生 设计 的 一 学 期 教材 ， 也 是 最 新 的 基础 入 门 书 或 从 业者 的 参考 书 。 


致谢 

本 书 的 编写 花 了 近 40 年 时 间 ， 因 此 想 要 一 一 列 出 所 有 参与 人 是 不 可 能 的 。 本 书 的 前 几 版 一 共 列 出 
了 好 几 十 人 ， 其 中 包括 ( 按 字母 顺序 ) Andrew Appel、Trina Avery、Marc Brown、 Lyn Dupré、 Philippe 
Flajolet、 Tom Freeman 、 Dave Hanson 、Janet Incerpi、 Mike Schidlowsky、Steve Summit 和 Chris Van 
Wyk。 我 要 感谢 他 们 所 有 人 ， 尽 管 其 中 有 些 人 的 贡献 要 追溯 到 几 十 年 前 。 至 于 第 4 版 ， 我 们 要 感谢 
试用 了 本 书 样稿 的 普林斯顿 及 其 他 院 校 的 数 百名 学 生 ， 以 及 通过 本 书 网 站 发 表意 见 和 指出 错误 的 世 
界 各 地 的 读者 。 

我 们 还 要 感谢 普林斯顿 大 学 对 于 高 质量 教学 的 坚定 支持 ， 这 是 本 书 得 以 面世 的 基础 。 

Peter Gordon 几 乎 从 本 书写 作 之 初 就 提出 了 很 多 有 用 的 建议 ， 这 一 版 奉行 的 “ 归 本 湖 源 ”的 指导 
思想 也 是 他 最 早 提出 的 。 关 于 第 4 版 ， 我 们 要 感谢 Barbara Wood 认 真 又 专业 的 编辑 工作 ，Julie Nahil 对 


生产 过 程 的 管理 ， 以 及 Pearson 出 版 公司 中 为 本 书 的 付 样 和 营销 辛勤 工作 的 朋友 。 所 有 人 都 在 积极 地 
追赶 进度 ， 而 本 书 的 质量 并 没有 受到 丝毫 影响 。 


第 1 章 
1.1 


1.4 


基础 
基础 编程 模型 …… 


Ee 
1.1.2 
1.1.3 
1.1.4 
1.1.5 
1.1.6 
LY 
1.1.8 
11.9 


1.1.10 二 分 查找 
1.1.11 
数据 抽象 … 


12.1 
1.2.2 
1.2.3 
1.2.4 
1.2.5 


背包 、 


1.3.1 
1.3.2 
1.3.3 
1.3.4 


1.4.10 展望 … 
1.5 ”案例 研究 :union-find 算 
1.5.1 动态 连通 性 
1.5.2 实现 
1.5.3 展望 

















Java 程 序 的 基本 结构 … 
原始 数据 类 型 与 表达 式 
语句 















第 2 章 
2.1 


数组 
静态 方法 
APIL- 
字符 率 - 
输入 输出 … 





2.1.4 排序 算法 的 可 视 化 
2.1.5 比较 两 种 排序 算法 … 








展望 … 





2.2 归并 排序 … 
2.2.1 原 地 归并 的 抽象 方法 
2.2.2 自 项 向 下 的 归并 排序 
2.2.3 自 底 向 上 的 归并 排序 


8 
使 用 抽象 数据 类 型 8 
5 
2 
5 
60 2.2.4 排序 算法 的 复杂 度 … 
eo 
4 
1 
9 
98 


抽象 数据 类 型 举例 
抽象 数据 类 型 的 实现 
更 多 抽象 数据 类 型 的 实现 
数据 类 型 的 设计 




















增长 数量 级 的 分 类 
设计 更 快 的 算法 
倍率 实验 
注意 事项 
处 理 对 于 给 入 的 依赖 
内 存 - 


第 3 章 


第 4 章 






3.1.1 API 
有 序 符号 表 
用 例 举 例 
无 序 链表 中 的 顺序 查找 
有 序数 组 中 的 二 分 查找 
对 二 分 查找 的 分 析 
预览 
3.2 二 叉 查 找 树 … 
基本 实现 



















33 


334 69 
3.3.2 红 黑 二 又 查找 树 75 
3.3.3 实现 … 

3.3.4 ”删除 操作 





3.3.5 红 黑 树 的 性 质 





基于 拉链 法 的 散 列表 … 
基于 线性 探测 法 的 散 列 表 
调整 数组 大 小 






3 和 


我 应 该 使 用 符号 表 的 哪 种 











4.2 


43 


44 


第 5 章 
5.1 


52 


5.3 








有 向 图 - 
4.2.1 术 : 
4.2.2 有 向 图 的 数据 类 型 
423 
42.4 
4.2.5 
42.6 
最 小 生成 树 
4.3.1 原理 
4.3.2 加权 无 向 图 的 数据 类 型 
43.3 最 小 生成 树 的 API 和 测试 













4.3.4 
4.3.5 
43.6 
4.3.7 
最 短路 径 … 
4.4.1 最 短路 径 的 性 质 
4.4.2 加权 有 向 图 的 数据 结构 
4.4.3 最 短路 径 算法 的 理论 基础 
4.4.4 Dijkstra 算 法 
4.4.5 无 环 加 权 有 向 图 中 的 最 短 
路 径 算法 … 
一 般 加 权 有 向 图 中 的 最 短 






























字符 申 排 序 … 
5.1.1 键 索引 计数 法 55 
5.1.2 低位 优先 的 字符 串 排序 58 
5.1.3 高 位 优先 的 字符 率 排 序 61 


三 向 字符 事 快速 排序 


5.2.1 
S22 
$23 
5.2.4 
5.2.5 


单词 查找 树 
单词 查找 树 的 性 质 
三 向 单词 查找 树 
三 向 单词 查找 树 的 性 质 、 
应 该 使 用 字符 事 符 号 表 的 
哪 种 实现 … 
子 字符 串 查 找 
5.3.1 历史 简介 
5.3.2 暴力 子 字符 囊 查找 算法 


















Knuth-Morris-Pratt 子 字符 事 
查找 算法 


法 


使 用 正则 表达 式 描 述 模式 
缩 略 写法 
正则 表达 式 的 实际 应 用 
非 确定 有 限 状态 自动 机 
模拟 NFA 的 运行 … 


Rabin-Karp 指 纹 字符 串 查找 








Boyer-Moore 字 符 囊 查 找 算 








5.4.6 ”构造 与 正则 表达 式 对 应 的 


目 








| 第 1 章 基 


础 


本 书 的 目的 是 研究 多 种 重要 而 实用 的 算法 ， 即 适合 用 计算 机 实现 的 解决 问题 的 方法 。 和 算法 关 
系 最 紧密 的 是 数据 结构 ， 即 便于 算法 操作 的 组 织 数据 的 方法 。 本 章 介绍 的 就 是 学 习 算法 和 数据 结构 


所 需要 的 基本 工具 。 


首先 要 介绍 的 是 我 们 的 基础 编程 模型 。 本 书 中 的 程序 只 用 到 了 Java 语言 的 一 小 部 分 ， 以 及 我 们 
自己 编写 的 用 于 封装 输入 输出 以 及 统计 的 一 些 库 。1.1 节 总 结 了 相关 的 语法 、 语 言 特 性 和 书 中 将 会 


用 到 的 库 。 


接 下 来 我 们 的 重点 是 数据 抽象 并 定义 抽象 数据 类 型 (ADT ) 以 进行 模块 化 编程 。 在 1.2 节 中 我 
们 介绍 了 用 Java 实现 抽象 数据 类 型 的 过 程 ， 包 括 定义 它 的 应 用 程序 编程 接口 (API) 然后 通过 Java 


的 类 机 制 来 实现 它 以 供 各 种 用 例 使 用 。 


之 后 ， 作 为 重要 而 实用 的 例子 ， 我们 将 学 习 三 种 基础 的 抽象 数据 类 型 背包、 队列 和 栈 。1.3 
节 用 数组 、 变 长 数组 和 链表 实现 了 背包 、 队 列 和 栈 的 API， 它 们 是 全 书 算法 实现 的 起 点 和 样板 。 

性 能 是 算法 研究 的 一 个 核心 问题 。1.4 节 描 述 了 分 析 算法 性 能 的 方法 。 我 们 的 基本 做 法 是 科学 
式 的 ， 即 先 对 性 能 提出 假设 ， 建 立 数学 模型 ， 然 后 用 多 种 实验 验证 它们 ， 必 要 时 重复 这 个 过 程 。 

我 们 用 一 个 连通 性 问题 作为 例子 结束 本 章 ， 它 的 解法 所 用 到 的 算法 和 数据 结构 可 以 实现 经 典 的 


union-find 抽象 数据 结构 。 
算法 

编写 一 段 计 算 机 程序 一 般 都 是 实现 一 种 
已 有 的 方法 来 解决 某 个 问题 。 这 种 方法 大 多 
和 使 用 的 编程 语言 无 关 一 一 它 适 用 于 各 种 计 
算 机 以 及 编程 语言 。 是 这 种 方法 而 非 计算 机 
程序 本 身 描述 了 解决 问题 的 步骤 。 在 计算 机 
科学 领域 ， 我 们 用 算法 这 个 词 来 描述 一 种 有 
限 、 确 定 、 有 效 的 并 适合 用 计算 机 程序 来 实 
现 的 解决 问题 的 方法 。 算 法 是 计算 机 科学 的 
基础 ， 是 这 个 领域 研究 的 核心 。 

要 定义 一 个 算法 ， 我 们 可 以 用 自然 语言 
描述 解决 某 个 问题 的 过 程 或 是 编写 一 段 程序 
来 实现 这 个 过 程 。 如 发 明 于 2300 多 年 前 的 欧 
几 里 德 算法 所 示 ， 其 目的 是 找到 两 个 数 的 最 
大 公约 数 : 


自然 语言 描述 


计算 两 个 非 负 整数 p 和 g 的 最 大 公约 数 : 若 
9 是 0, 则 最 大 公约 数 为 p。 否 则 ， 将 p 除 以 
9 得 到 余数 r, p 和 9g 的 最 大 公约 数 即 为 9 和 
r 的 最 大 公约 数 。 


Java 语言 描述 
Public static int gcd(int p, int q) 


{ 
if (q == 0) return pi 
int r=p%q; 
return gcd(q, r); 

} 


欧 几 里 德 算 法 
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如 果 你 不 熟悉 欧 几 里 德 算法 ， 那 么 你 应 该 在 学 习 了 1.1 节 之 后 完成 练习 1.1.24 和 练习 1.1.25。 
在 本 书 中 ， 我 们 将 用 计算 机 程序 来 描述 算法 。 这 样 做 的 重要 原因 之 一 是 可 以 更 容易 地 验证 它们 是 否 
如 所 要 求 的 那样 有 限 、 确 定 和 有 效 。 但 你 还 应 该 意识 到 用 某 种 特定 语言 写 出 一 段 程序 只 是 表达 一 个 
算法 的 一 种 方法 。 数 十 年 来 本 书 中 许多 算法 都 曾 被 表达 为 多 种 编程 语言 的 程序 ， 这 正 说 明 每 种 算法 
都 是 适合 于 在 任何 计算 机 上 用 任何 编程 语言 实现 的 方法 。 

我 们 关注 的 大 多 数 算法 都 需要 适当 地 组 织 数 据 ， 而 为 了 组 织 数据 就 产生 了 数据 结构 ， 数 据 结构 
也 是 计算 机 科学 研究 的 核心 对 象 ， 它 和 算法 的 关系 非常 密切 。 在 本 书 中 ， 我 们 的 观点 是 数据 结构 是 
算法 的 副产品 或 是 结果 , 因此 要 理解 算法 必须 学 习 数据 结构 。 简 单 的 算法 也 会 产生 复杂 的 数据 结构 ， 
相应 地 ， 复 杂 的 算法 也 许 只 需要 简单 的 数据 结构 。 本 书 中 我 们 将 会 研讨 许多 数据 结构 的 性 质 ， 也 许 

4 ] 本 书 就 应 该 叫 《算法 与 数据 结构 》。 

当 用 计算 机 解决 一 个 问题 时 ， 一 般 都 存在 多 种 不 同 的 方法 。 对 于 小 型 问题 ， 只 要 管用 ， 方 法 的 
不 同 并 没有 什么 关系 。 但 是 对 于 大 型 问题 ( 或 者 是 需要 解决 大 量 小 型 问题 的 应 用 ) ， 我 们 就 需要 设 
计 能 够 有 效 利用 时 间 和 空间 的 方法 了 。 

学 习 算法 的 主要 原因 是 它们 能 节约 非常 多 的 资源 ， 甚 至 能 够 让 我 们 完成 一 些 本 不 可 能 完成 的 任 
务 。 在 某 些 需要 处 理 上 百 万 个 对 象 的 应 用 程序 中 ， 设 计 优良 的 算法 甚至 可 以 将 程序 运行 的 速度 提高 
数 百 万 倍 。 在 本 书 中 我 们 将 在 多 个 场景 中 看 到 这 样 的 例子 。 与 此 相反 ， 花 费 金钱 和 时 间 去 购置 新 的 
硬件 可 能 只 能 将 速度 提高 十 倍 或 是 百倍 。 无 论 在 任何 应 用 领域 ， 精 心 设计 的 算法 都 是 解决 大 型 问题 
最 有 效 的 方法 。 

在 编写 庞大 或 者 复杂 的 程序 时 ， 理 解 和 定义 问题 、 控 制 问题 的 复杂 度 和 将 其 分 解 为 更 容易 解决 
的 子 问题 需要 大 量 的 工作 。 很 多 时 候 ， 分 解 后 的 子 问题 所 需 的 算法 实现 起 来 都 比较 简单 。 但 是 在 大 
多 数 情况 下 ， 某 些 算法 的 选择 是 非常 关键 的 ， 因 为 大 多 数 系统 资源 都 会 消耗 在 它们 身上 。 本 书 的 焦 
点 就 是 这 类 算法 。 我 们 所 研究 的 基础 算法 在 许多 应 用 领域 都 是 解决 困难 问题 的 有 效 方法 。 

计算 机 程序 的 共享 已 经 变 得 越 来 越 广泛 ， 尽 管 书 中 涉及 了 许多 算法 ， 我 们 也 只 实现 了 其 中 的 一 
小 部 分 。 例 如 ，Java 库 包 含 了 许多 重要 算法 的 实现 。 但 是 ， 实 现 这 些 基础 算法 的 简化 版 本 有 助 于 我 
们 更 好 地 理解 、 使 用 和 优化 它们 在 库 中 的 高 级 版 本 。 更 重要 的 是 ， 我 们 经 常 需要 重新 实现 这 些 基 础 
算法 ， 因 为 在 全 新 的 环境 中 ( 无 论 是 硬件 的 还 是 软件 的 ) ， 原 有 的 实现 无 法 将 新 环境 的 优势 完全 发 
挥 出 来 。 在 本 书 中 ， 我 们 的 重点 是 用 最 简洁 的 方式 实现 优秀 的 算法 。 我 们 会 仔细 地 实现 算法 的 关键 
部 分 ， 并 尽 最 大 努力 揭示 如 何 进行 有 效 的 底层 优化 工作 。 

5 为 一 项 任务 选择 最 合适 的 算法 是 困难 的 ， 这 可 能 会 需要 复杂 的 数学 分 析 。 计 算 机 科学 中 研究 这 
种 问题 的 分 支 叫做 算法 分 析 。 通 过 分 析 ， 我 们 将 要 学 习 的 许多 算法 都 有 着 优秀 的 理论 性 能 ， 而 另 
些 我 们 则 只 是 根据 经 验 知道 它们 是 可 用 的 。 我们 的 主要 目标 是 学 习 典型 问题 的 各 种 有 效 算法 ， 但 也 
会 注意 比较 不 同 算法 之 间 的 性 能 差异 。 不 应 该 使 用 资源 消耗 情况 未 知 的 算法 ， 因 此 我 们 会 时 刻 关注 
算法 的 期 望 性 能 。 


本 书 框架 

接 下 来 概述 一 下 全 书 的 主要 内 容 ， 给 出 涉及 的 主题 以 及 本 书 大 致 的 组 织 结构 。 这 组 主题 触及 了 
尽 可 能 多 的 基础 算法 ， 其 中 的 某 些 领域 是 计算 机 科学 的 核心 内 容 ， 通 过 对 这 些 领域 的 深入 研究 ， 我 
们 找 出 了 应 用 广泛 的 基本 算法 ， 而 另 一 些 算法 则 来 自 计算 机 科学 和 相关 领域 比较 前 沿 的 研究 成 果 。 
总 之 ， 本 书 讨论 的 算法 都 是 数 十 年 来 研发 的 重要 成 果 ， 它 们 将 继续 在 快速 发 展 的 计算 机 应 用 中 扮演 
重要 角色 。 
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第 1 章 基础 

它 讲解 了 在 随后 的 章节 中 用 来 实现 、 分 析 和 比较 算法 的 基本 原则 和 方法 ， 包 括 Java 编程 模型 、 
数据 抽象 、 基 本 数据 结构 、 集 合 类 的 抽象 数据 类 型 、 算 法 性 能 分 析 的 方法 和 一 个 案例 分 析 。 
第 2 章 排序 

有 序 地 重新 排列 数组 中 的 元 素 是 非常 重要 的 基础 算法 。 我 们 会 深入 研究 各 种 排序 算法 ， 包 括 插 
入 排序 、 选 择 排序 、 希 尔 排序 、 快 速 排序 、 归 并 排序 和 堆 排 序 。 同 时 我 们 还 会 讨论 另外 一 些 算法 ， 
它们 用 于 解决 几 个 与 排序 相关 的 问题 ， 例 如 优先 队列 、 选 举 以 及 归并 。 其 中 许多 算法 会 成 为 后 续 章 
节 中 其 他 算法 的 基础 。 
第 3 章 查找 

从 庞大 的 数据 集中 找到 指定 的 条 目 也 是 非常 重要 的 。 我 们 将 会 讨论 基本 的 和 高 级 的 查找 算法 ， 
包括 二 叉 查 找 树 、 平 衡 查 找 树 和 散 列表 。 我 们 会 梳理 这 些 方法 之 间 的 关系 并 比较 它们 的 性 能 。 
第 4 章 图 

图 的 主要 内 容 是 对 象 和 它们 的 连接 ， 连 接 可 能 有 权重 和 方向 。 利 用 图 可 以 为 大 量 重要 而 困难 的 
问题 建 模 ， 因 此 图 算法 的 设计 也 是 本 书 的 一 个 主要 研究 领域 。 我 们 会 研究 深度 优先 搜索 、 广 度 优先 
搜索 、 连 通 性 问题 以 及 若干 其 他 算法 和 应 用 ， 包 括 Kruskal 和 Prim 的 最 小 生成 树 算法 、Dijkstra 和 
Bellman-Ford 的 最 短路 径 算法 。 到 
第 5 章 字符 串 

字符 串 是 现代 应 用 程序 中 的 重要 数据 类 型 。 我 们 将 会 研究 一 系列 处 理 字符 串 的 算法 ， 首 先是 对 
字符 串 键 的 排序 和 查找 的 快速 算法 ， 然 后 是 子 字符 串 查找 、 正 则 表达 式 模式 匹配 和 数据 压缩 算法 。 
此 外 ， 在 分 析 一 些 本 身 就 十 分 重要 的 基础 问题 之 后 ， 这 一 章 对 相关 领域 的 前 沿 话题 也 作 了 介绍 。 
第 6 章 背景 

这 一 章 将 讨论 与 本 书 内 容 有 关 的 若干 其 他 前 沿 研究 领域 ， 包 括 科 学 计算 、 运 筹 学 和 计算 理论 。 
我 们 会 介绍 性 地 讲 一 下 基于 事件 的 模拟 、B 树 、 后 组 数组 、 最 大 流量 问题 以 及 其 他 高 级 主题 ， 以 帮 
助 读者 理解 算法 在 许多 有 趣 的 前 沿 研究 领域 中 所 起 到 的 巨大 作用 。 最 后 ， 我 们 会 讲 一 讲 搜索 问题 、 
问题 转化 和 NP 完全 性 等 算法 研究 的 支柱 理论 ， 以 及 它们 和 本 书 内 容 的 联系 。 

学 习 算法 是 非常 有 趣 和 令 人 激动 的 ， 因 为 这 是 一 个 历久 弥 新 的 领域 ( 我 们 学 习 的 绝 大 多 数 算法 
都 还 不 到 “五 十 岁 ”， 有 些 还 是 最 近 才 发 明 的 ， 但 也 有 一 些 算法 已 经 有 数 百年 的 历史 ) 。 这 个 领域 
不 断 有 新 的 发 现 , 但 研究 透彻 的 算法 仍然 是 少数 。 本 书 中 既 有 精巧 、 复 杂 和 高 难度 的 算法 , 也 有 优雅 、 
朴素 和 简单 的 算法 。 在 科学 和 商业 应 用 中 ,我 们 的 目标 是 理解 前 者 并 熟悉 后 者 ， 这 样 才能 掌握 这 些 
有 用 的 工具 并 学 会 算法 式 思考 ， 以 迎接 未 来 计算 任务 的 挑战 。 7 


























4 第 1 章 基 础 


1.1 基础 编程 模型 


我 们 学 习 算 法 的 方法 是 用 Java 编程 语言 编写 的 程序 来 实现 算法 。 这 样 做 是 出 于 以 下 原因 : 

口 程序 是 对 算法 精确 、 优 雅 和 完全 的 描述 ; 

口 可 以 通过 运行 程序 来 学 习 算法 的 各 种 性 质 ; 

口 可 以 在 应 用 程序 中 直接 使 用 这 些 算法 。 

相 比 用 自然 语言 描述 算法 ， 这 些 是 重要 而 巨大 的 优势 。 

这 样 做 的 一 个 缺点 是 我 们 要 使 用 特定 的 编程 语言 , 这 会 使 分 离 算法 的 思想 和 实现 细节 变 得 困难 。 
我 们 在 实现 算法 时 考虑 到 了 这 一 点 ， 只 使 用 了 大 多 数 现代 编程 语言 都 具有 且 能 够 充分 描述 算法 所 必 
需 的 语法 。 

我 们 仅 使 用 了 Java 的 一 个 子 集 。 尽 管 我 们 没有 明确 地 说 明 这 个 子 集 的 范围 ， 但 你 也 会 看 到 我 们 
只 使 用 了 很 少 的 Java 特性 ， 而 且 会 优先 使 用 大 多 数 现代 编程 语言 所 共有 的 语法 。 我 们 的 代码 是 完整 
的 ， 因 此 希望 你 能 下 载 这 些 代码 并 用 我 们 的 测试 数据 或 是 你 自己 的 来 运行 它们 。 

我 们 把 描述 和 实现 算法 所 用 到 的 语言 特性 、 软 件 库 和 操作 系统 特性 总 称 为 基础 编程 模型 。 本 
节 以 及 1.2 节 会 详细 说 明 这 个 模型 ， 相 关内 容 自 成 一 体 ， 主 要 是 作为 文档 供 读者 查阅 ， 以 便 理解 本 
书 的 代码 。 我 们 的 另 一 本 入 门 级 的 书籍 4n Imiroduction to Programming in Java: An Interdisciplinary 
Approach 也 使 用 了 这 个 模型 。 

作为 参考 ， 图 1.1.1 所 示 的 是 一 个 完整 的 Java 程序 。 它 说 明了 我 们 的 基础 编程 模型 的 许多 基本 
特点 。 在 讨论 语言 特性 时 我 们 会 用 这 段 代 码 作为 例子 ， 但 可 以 先 不 用 考虑 代码 的 实际 意义 ( 它 实现 
了 经 典 的 二 分 查找 算法 ， 并 在 白 名 单 过 滤 应 用 中 对 算法 进行 了 检验 ， 请 见 1.1.10 节 ) 。 我 们 假设 你 
具备 某 种 主流 语言 编程 的 经 验 ， 因 此 你 应 该 知道 这 段 代 码 中 的 大 多 数 要 点 。 图 中 的 注释 应 该 能 够 解 
答 你 的 任何 疑问 。 因 为 图 中 的 代码 某 种 程度 上 反映 了 本 书 代码 的 风格 ， 而 且 对 各 种 Java 编程 惯例 和 

8 ] 语言 构造 ， 在 用 法 上 我 们 都 力求 一 致 ， 所 以 即使 是 经 验 丰 富 的 Java 程序 员 也 应 该 看 一 看 。 


1.1.1 Java 程序 的 基本 结构 


一 段 Java 程序 ( 类 ) 或 者 是 一 个 静态 方法 ( 函数 ) 库 ， 或 者 定义 了 一 个 数据 类 型 。 要 创建 静态 
方法 库 和 定义 数据 类 型 ,会 用 到 下 面 五 种 语法 ,它们 是 Java 语 言 的 基础 ,也 是 大 多 数 现代 语言 所 共有 的 。 
口 原始 数据 类 型 : 它们 在 计算 机 程序 中 精确 地 定义 整数 、 浮 点 数 和 布尔 值 等 。 它 们 的 定义 包括 
取 值 范围 和 能 够 对 相应 的 值 进行 的 操作 ， 它 们 能 够 被 组 合 为 类 似 于 数学 公式 定义 的 表达 式 。 
口 语句 : 语句 通过 创建 变量 并 对 其 赋值 、 控 制 运 行 流程 或 者 引发 副作用 来 进行 计算 。 我 们 会 使 
用 六 种 语句 ， 声明 、 赋 值 、 条 件 、 循 环 、 调 用 和 返回 。 
口 数组 : 数组 是 多 个 同 种 数据 类 型 的 值 的 集合 。 
口 静态 方法 : 静态 方法 可 以 封装 并 重用 代码 ， 使 我 们 可 以 用 独立 的 模块 开发 程序 。 
口 字符 串 : 字符 串 是 一 连 串 的 字符 ，Java 内 置 了 对 它们 的 一 些 操作 。 
口 标准 输入 /输出 : 标准 输入 输出 是 程序 与 外 界 联系 的 桥梁 。 
口 数据 抽象 : 数据 抽象 封装 和 重用 代码 , 使 我 们 可 以 定义 非 原始 数据 类 型 , 进而 支持 面向 对 象 编程 。 
我 们 将 在 本 节 学 习 前 五 种 语法 ,数据 抽象 是 下 一 节 的 主题 。 
运行 Java 程序 需要 和 操作 系统 或 开发 环境 打交道 。 为 了 清晰 和 简洁 ， 我 们 把 这 种 输入 命令 执行 
程序 的 环境 称 为 虚拟 终端 。 请 登录 本 书 的 网 站 去 了 解 如 何 使 用 虚拟 终端 ， 或 是 现代 系统 中 许多 其 他 
高 级 的 编程 开发 环境 的 使 用 方法 。 
在 例子 中 ，BinarySearch 类 有 两 个 静态 方法 rank() 和 main()。 第 一 个 方法 rank() 含有 四 条 
语句 : 两 条 声明 语句 , 一 条 循环 语句 ( 该 语句 中 又 有 一 条 赋值 语句 和 两 条 条 件 语句 ) 和 一 条 返回 语句 。 














1.1 基础 编程 模型 


第 二 个 方法 main() 包含 三 条 语句 : 一 条 声明 语句 、 一 条 调用 语句 和 一 个 循环 语句 ( 该 语句 中 又 包 
含 一 条 赋值 语句 和 一 条 条 件 语句 ) 。 

要 执行 一 个 Java 程序 ， 首 先 需 要 用 javac 命令 编译 它 ， 然 后 再 用 java 命令 运行 它 。 例 如 ， 要 
运行 BinarySearch， 首 先 要 输入 javac BinarySearch.java ( 这 将 生成 一 个 叫 BinarySearch.class 
的 文件 ， 其 中 含有 这 个 程序 的 Java 字 节 码 ) ; 然后 再 输入 java BinarySearch ( 接着 是 一 个 白 名 
单 文件 名 ) 把 控制 权 移交 给 这 段 字 节 码 程序 。 为 了 理解 这 段 程序 ， 我 们 接 下 来 要 详细 介绍 原始 数据 
类 型 和 表达 式 ， 各 种 Java 语句 、 数 组 、 静 态 方法 、 字 符 串 和 输入 输出 。 


导入 一 个 Java 库 (请 见 1.1.6.8 节 ) 

import java.util.Arrays; 代码 文件 名 必须 是 BinarySearch.java 
(请 见 1.1.6.5 节 ) 
public class BinarySearch 参数 变量 
{ 














静态 方法 (请 见 1.1.6.1 节 ) 
Pubiic static int rankCint Key7 人 ntia) 
初始化 声明 语 各 “| ， int 10 = 0; 。 到 加 值 参数 类 型 

(请 见 1.1.4.1 节 ) length - 1; 


int hi = 
全 (请.12 节 ) 














int mid = [To + (hi - 10) / 2; 
循环 语句 (请 if (key < almid]) hi = mid - 1; 
见 113.4 节 ) 一 “| else if (key > amid]) 1o = mid + 1; 
else return mid; 
} 
return -1 
一 返回 语句 























系统 调用 ,wainO 单元 测试 用 例 《请 见 1.1.6.7 节 ) 
public static void mainCString[] args) 


人 有 返回 估 ， 只 有 副作用 请 见 1.1.63 节 ) 
int[] whitelist = In.readInts(args[0]); 








Arrays.sort(whitelist); bi > 


while (!StdIn.isEmptyO)) 用 和 人 的 床 让 的 
’ 应 的 代码 (请 见 1.1.6.8 节 ) 


int key = StdIn.readIntO); 
条 件 语句 (请 iF CrankCkey, whitelist) == -I pe 
见 L133 节 ) 一 “| StdOut.printin(key); | 人 
} 














系统 将 "white1ist.txt" 作 
为 参数 传递 给 main() 


命令 行 ( 请 见 1.1.9.1 节 ) 
文件 名 ， re 
% java BinarySearch largeW.txt < largeT.txt 
StdOut 的 输出 .4g9s69 


Vip 984875 重 定向 后 向 StdIn 输 入 
cp 的 文件 (请 见 1.1.9.5 节 ) 


图 1.1. 1 Java 程序 及 其 命令 行 的 调用 
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1.1.2 ”原始 数据 类 型 与 表达 式 

数据 类 型 就 是 一 组 数据 和 对 其 所 能 进行 的 操作 的 集合 。 首 先 考虑 以 下 4 种 Java 语言 最 基本 的 原 
始 数据 类 型 : 

口 整 型 ， 及 其 算术 运算 符 (int ) ; 

口 浮 点 型 ， 及 其 算术 运算 符 (double) ; 

口 布尔 型 ， 它 的 值 {true，false} 及 其 逻辑 操作 (boolean ) ; 

口 字符 型 ， 它 的 值 是 你 能 够 输入 的 英文 字母 数字 字符 和 符号 (char ) 。 

接 下 来 我 们 看 看 如 何 指明 这 些 类 型 的 值 和 对 这 些 类 型 的 操作 。 

Java 程序 控制 的 是 用 标识 符 命名 的 变量 。 每 个 变量 都 有 自己 的 类 型 并 存储 了 一 个 合法 的 值 。 在 
Java 代码 中 ,我们 用 类 似 数学 表达 式 的 表达 式 来 实现 对 各 种 类 型 的 操作 。 对 于 原始 类 型 来 说 ， 我 们 
用 标识 符 来 引用 变量 ， 用 +、-、* 、/ 等 运算 符 来 指定 操作 ， 用 字面 量 ， 例 如 1 或 者 3.14 来 表示 
值 , 用 形 如 (x+2.236)/2 的 表达 式 来 表示 对 值 的 操作 。 表 达 式 的 目的 就 是 计算 某 种 数据 类 型 的 值 。 
表 1.1.1 对 这 些 基本 内 容 进行 了 说 明 。 


表 1.1.1 Java 程序 的 基本 组 成 




















术语 例子 .3 
原始 数据 类 型 int_double boolean char 一 组 数据 和 对 其 所 能 进行 的 操作 的 集合 (Java 语言 内 吐 ) 
标识 符 a abc Ab$ ab abl23 lo hi 由 字母 、 数 字 、 下 划 线 和 $ 组 成 的 字符 申 ， 首 字符 不 能 是 
数字 
变量 [任意 标识 符 ] 表示 某 种 数据 类 型 的 值 
运算 符 下 表示 某 种 数据 类 型 的 运算 
字面 最 int 0 -42 值 在 源 代码 中 的 表示 
double 2.0 1'00-1? 3.14 
boolean true false 
Cr a ne 
表达 式 int lo + (hi - 10) / 2 字面 量 、 Ce - 串 字 面 量 、 变 量 和 
double 1.0e-15 * t 运算 符 的 
boolean lo <= hi 


cs 

只 要 能 够 指定 值 域 和 在 此 值 域 上 的 操作 ， 就 能 定义 一 个 数据 类 型 。 表 1.1.2 总 结 了 Java 的 
int、double、boolean 和 char 类 型 的 相关 信息 。 许 多 现代 编程 语言 中 的 基本 数据 类 型 和 它们 都 
很 相似 。 对 于 int 和 double 来 说 ， 这 些 操作 是 我 们 熟悉 的 算数 运算 ; 对 于 boolean 来 说 则 是 逻辑 
运算 。 需 要 注意 的 重要 一 点 是 ，+、- 、*、/ 都 是 被 重 载 过 的 一 根据 上 下 文 ， 同 样 的 运算 符 对 不 
同类 型 会 执行 不 同 的 操作 。 这 些 初 级 运算 的 关键 性 质 是 运算 产生 的 数据 的 数据 类 型 和 参与 运算 的 数 
据 的 数据 类 型 是 相同 的 。 这 也 意味 着 我 们 经 常 需要 处 理 近 似 值 ， 因 为 很 多 情况 下 由 表达 式 定义 的 准 
确 值 并 非 参 与 表达 式 运算 的 值 。 例 如 ，5/3 的 值 是 1 而 5.0/3.0 的 值 是 1.66666666666667， 两 者 
都 很 接近 但 并 不 准确 地 等 于 5/3。 下 表 并 不 完整 ， 我 们 会 在 本 节 最 后 的 答疑 部 分 中 讨论 更 多 运算 符 
和 偶尔 需要 考虑 到 的 各 种 异常 情况 。 


表 1.1.2 Java 中 的 原始 数据 类 型 





天 典型 表达 式 
类 型 值 域 运算 符 表达 这 什 
int -2” 至 +2%-1 之 间 的 整 +( 加 ) 生路 党 8 
数 (32 位 , 二 进 制 补 码 ) - ( 减 ) $5= 和 3 2 
*( 乘 ) 但 要 各 15 
/1( 除 ) 5 V 3 工 
% ( 求 余 ) 5%3 2 
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( 续 ) 
二 典型 表达 式 
类 型 值 域 运 算 符 表达 式 值 
double 双 精 度 实数 (64 位 ， + (加) 3.141 - 0.03 WL 
IEEE 754 标准 ) - ( 减 ) 2.0 - 2.0e-7 1.9999998 
*( 乘 ) 100 * 0.015 LL 
/1( 除 ) 6.02e23 / 2.0 3.01e23 
boolean true 或 false 8 (与 ) true &8& false false 
11 (或 ) false || true true 
! ( 非 ) !false true 
^( 异 或 ) true A true false 
char 字符 (16 位 ) (算术 运算 符 ， 但 很 少 使 用 ) 12 
1.1.2.1 表达 式 


如 表 1.1.2 所 示 ,Java 使 用 的 是 中 组 表达 式 . 一 个 字面 量 ( 或 是 一 个 表达 式 ), 紧 接着 是 一 个 运算 符 ， 
再 接着 是 另 一 个 字面 量 ( 或 者 另 一 个 表达 式 ) 。 当 一 个 表达 式 包含 一 个 以 上 的 运算 符 时 ， 运 算 符 的 
作用 顺序 非常 重要 ， 因 此 Java 语言 规范 约定 了 如 下 的 运算 符 优先 级 : 运算 符 * 和 / (以 及 %) 的 优 
先 级 高 于 + 和 - (优先 级 越 高 ， 越 早 运算 ) ; 在 逻辑 运算 符 中 ，! 拥有 最 高 优先 级 ， 之 后 是 喇 ， 接 
下 来 是 1 1。 一般 来 说 , 相同 优先 级 的 运算 符 的 运算 顺序 是 从 左 至 右 。 与 在 正常 的 算数 表达 式 中 一 样 ， 
使 用 括号 能 够 改变 这 些 规则 。 因 为 不 同 语言 中 的 优先 级 规则 会 有 些许 不 同 ， 我 们 在 代码 中 会 使 用 括 
号 并 用 各 种 方法 努力 消除 对 优先 级 规则 的 依赖 。 
1.1.2.2 ”类 型 转换 

如 果 不 会 损失 信息 ， 数 值 会 被 自动 提升 为 高 级 的 数据 类 型 。 例 如 ， 在 表达 式 1+2.5 中 ，1 会 被 
转换 为 浮 点 数 1.0， 表 达 式 的 值 也 为 double 值 3.5。 转 换 指 的 是 在 表达 式 中 把 类 型 名 放 在 括号 里 
将 其 后 的 值 转换 为 括号 中 的 类 型 。 例 如 ，(int)3.7 的 值 是 3 而 (doub1le)3 的 值 是 3.0。 需 要 注意 
的 是 将 浮 点 型 转换 为 整 型 将 会 截断 小 数 部 分 而 非 四 售 五 人 ， 在 复杂 的 表达 式 中 的 类 型 转换 可 能 会 很 
复杂 ， 应 该 小 心 并 尽量 少 使 用 类 型 转换 ， 最 好 是 在 表达 式 中 只 使 用 同一 类 型 的 字面 量 和 变量 。 
1.1.2.3 比较 

下 列 运算 符 能 够 比较 相同 数据 类 型 的 两 个 值 并 产生 一 个 布尔 值 : 相等 (== ) 、 不 等 (1=) 、 小 
于 (<) 、 小 于 等 于 (<=) 、 大 于 (> ) 和 大 于 等 于 (>= ) 。 这 些 运算 符 被 称 为 混合 类 型 运算 符 ， 因 
为 它们 的 结果 是 布尔 型 ， 而 不 是 参与 比较 的 数据 类 型 。 结 果 是 布尔 型 的 表达 式 被 称 为 布尔 表达 式 。 
我 们 将 会 看 到 这 种 表达 式 是 条 件 语 句 和 循环 语句 的 重要 组 成 部 分 。 
1.1.2.4 其 他 原始 类 型 

Java 的 整 型 能 够 表示 2” 个 不 同 的 值 ， 用 一 个 32 位 二 进 制 即 可 表示 ( 虽然 现在 的 许多 计算 机 有 
64 位 二 进 制 ， 但 整 型 仍然 是 32 位 ) 。 与 此 相似 ， 浮 点 型 的 标准 规定 为 64 位 。 这 些 大 小 对 于 一 般 应 
用 程序 中 使 用 的 整数 和 实数 已 经 足够 了 。 为 了 提供 更 大 的 灵活 性 ，Java 还 提供 了 其 他 五 种 原始 数据 
类 型: 

口 64 位 整数 ， 及 其 算术 运算 符 (long); 

口 16 位 整数 ， 及 其 算术 运算 符 (short); 

口 16 位 字符 ,及 其 算术 运算 符 (char); 

口 8 位 整数 ， 及 其 算术 运算 符 (byte); 

口 32 位 单 精度 实数 ， 及 其 算术 运算 符 (float)。 
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在 本 书 中 我 们 大 多 使 用 int 和 double 进行 算术 运算 ， 因 此 我 们 在 此 不 会 再 详细 讨论 其 他 类 似 
的 数据 类 型 。 


1.1.3 语句 

Java 程序 是 由 语句 组 成 的 。 语 句 能 够 通过 创建 和 操作 变量 、 对 变量 赋值 并 控制 这 些 操作 的 执行 
流程 来 描述 运算 。 语 句 通 常会 被 组 织 成 代码 段 ， 即 花 括号 中 的 一 系列 语句 。 

口 声明 语句 : 创建 某 种 类 型 的 变量 并 用 标识 符 为 其 命名 。 

口 赋值 语句 : 将 ( 由 表达 式 产生 的 ) 某 种 类 型 的 数值 赋予 一 个 变量 。Java 还 有 一 些 隐 式 赋值 的 

语法 可 以 使 某 个 变量 的 值 相 对 于 当前 值 发 生变 化 ， 例 如 将 一 个 整 型 值 加 1。 

口 条 件 语句 : 能 够 简单 地 改变 执行 流程 一 一 根据 指定 的 条 件 执行 两 个 代码 段 之 一 。 

口 循环 语句 : 更 彻底 地 改变 执行 流程 一 一 只 要 条 件 为 真 就 不 断 地 反复 执行 代码 段 中 的 语句 。 

口 调用 和 返回 语句 : 和 静态 方法 有 关 ( 见 1.1.6 节 ) , 是 改变 执行 流程 和 代码 组 织 的 另 一 种 方式 。 

程序 就 是 由 一 系列 声明 、 赋 值 、 条 件 、 循 环 、 调 用 和 返回 语句 组 成 的 。 一 般 来 说 代码 的 结构 都 
是 炭 套 的 : 一 个 条 件 语句 或 循环 语句 的 代码 段 中 也 能 包含 条 件 语句 或 是 循环 语句 。 例 如 ，rank() 
中 的 while 循环 就 包含 一 个 if 语句 。 接 下 来 ， 我 们 逐个 说 明 各 种 类 型 的 语句 。 
1.1.3.1 声明 语句 

声明 语句 将 一 个 变量 名 和 一 个 类 型 在 编译 时 关联 起 来 。Java 需要 我 们 用 声明 语句 指定 变量 的 名 
称 和 类 型 。 这 样 ， 我 们 就 清楚 地 指明 了 能 够 对 其 进行 的 操作 。Java 是 一 种 强 类 型 的 语言 ， 因 为 Java 
编译 器 会 检查 类 型 的 一 致 性 ( 例如 ， 它 不 会 允许 将 布尔 类 型 和 浮 点 类 型 的 变量 相 乘 ) 。 变 量 可 以 声 
明 在 第 一 次 使 用 之 前 的 任何 地 方 一 一 般 我 们 都 在 首次 使 用 该 变量 的 时 候 声明 它 。 变 量 的 作用 域 就 
是 定义 它 的 地 方 ， 一 般 由 相同 代码 段 中 声明 之 后 的 所 有 语句 组 成 。 
1.1.3.2 ”赋值 语句 

赋值 语句 将 ( 由 一 个 表达 式 定义 的 ) 某 个 数据 类 型 的 值 和 一 个 变量 关联 起 来 。 在 Java 中 ， 当 我 
们 写 下 c=a+b 时 ， 我 们 表达 的 不 是 数学 等 式 ， 而 是 一 个 操作 ， 即 令 变 量 c 的 值 等 于 变量 a 的 值 与 变 
量 b 的 值 之 和 。 当 然 ， 在 赋值 语句 执行 后 ， 从 数学 上 来 说 c 的 值 必然 会 等 于 atb， 但 语句 的 目的 是 
改变 < 的 值 ( 如 果 需 要 的 话 ) 。 赋 值 语句 的 左 侧 必须 是 单个 变量 ， 右 侧 可 以 是 能 够 得 到 相应 类 型 的 
值 的 任意 表达 式 。 
1.1.3.3 条件 语 名 

大 多 数 运算 都 需要 用 不 同 的 操作 来 处 理 不 同 的 输入 。 在 Java 中 表达 这 种 差异 的 一 种 方法 是 if 
语句 : 

if (<boolean expression>) { <block statements> } 
这 种 描述 方式 是 一 种 叫做 模板 的 形式 记 法 ， 我 们 偶尔 会 使 用 这 种 格式 来 表示 Java 的 语法 。 尖 括号 
(<> ) 中 的 是 我 们 已 经 定义 过 的 语法 ， 这 表示 我 们 可 以 在 指定 的 位 置 使 用 该 语法 的 任意 实例 。 在 这 
里 ，<boolean expression> 表示 一 个 布尔 表达 式 ， 例如 一 个 比较 操作 。<block statements> 表 
示 一 段 Java 语句 。 我 们 也 可 以 给 出 <boolean expression> 和 <block statements> 的 形式 定义 ， 
不 过 我 们 不 想 深入 这 些 细节 。if 语句 的 意义 不 言 自 明 : 当 且 仅 当 布尔 表达 式 的 值 为 真 (true) 时 代 
码 段 中 的 语句 才 会 被 执行 。 以 下 if-e1se 语句 能 够 在 两 个 代码 段 之 间作 出 选择 : 


if (<boolean expression>) { <block statements> } 
else { <block statements> } 
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1.1.3.4 ”循环 语句 

许多 运算 都 需要 重复 。Java 语言 中 处 理 这 种 计算 的 基本 语句 的 格式 是 : 

while (<boolean expression>) { <block statements> } 
while 语句 和 if 语句 的 形式 相似 ( 只 是 用 while 代替 了 if) ,但 意义 大 有 不 同 。 当 布尔 表达 式 的 
值 为 假 ( false ) 时 , 代码 什么 也 不 做 ; 当 布 尔 表 达 式 的 值 为 真 ( true ) 时 , 执行 代码 段 ( 和 i 一 样 )， 
然后 再 次 检查 布尔 表达 式 的 值 ， 如 果 仍然 为 真 ， 再 次 执行 代码 段 。 如 此 这 般 ， 只 要 布尔 表达 式 的 值 
为 真 ， 就 继续 执行 代码 段 。 我 们 将 循环 语句 中 的 代码 自称 为 循环 体 。 
1.1.3.5 break 与 continue 语句 

有 些 情况 下 我 们 也 会 需要 比 基 本 的 if 和 while 语句 更 加 复杂 的 流程 控制 。 相 应 地 ，Java 支持 
在 while 循环 中 使 用 另外 两 条 语句 : 

口 break 语句 ， 立 即 从 循环 中 退出 ; 

口 continue 语句 ， 立 即 开始 下 一 轮 循 环 。 

本 书 很 少 在 代码 中 使 用 它们 ( 许多 程序 员 从 来 都 不 用 ) ， 但 在 某 些 情况 下 它们 的 确 能 够 大 大 简 
化 代码 。 15 


1.1.4 简便 记 法 
程序 有 很 多 种 写法 ， 我 们 追求 清晰 、 优 雅 和 高 效 的 代码 。 这 样 的 代码 经 常会 使 用 以 下 这 些 广 为 
流传 的 简便 写法 ( 不 仅仅 是 Java， 许 多 语言 都 支持 它们 ) 。 
1.1.4.1 声明 并 初始 化 
可 以 将 声明 语句 和 赋值 语句 结合 起 来 ， 在 声明 ( 创建 ) 一 个 变量 的 同时 将 它 初始 化 。 例 如 ， 
int i = 1; 创建 了 名 为 i 的 变量 并 赋予 其 初始 值 1。 最 好 在 接近 首次 使 用 变量 的 地 方 声明 它 并 将 
其 初始 化 (为 了 限制 它 的 作用 域 )。 
1.1.4.2” 隐 式 赋值 
当 希 望 一 个 变量 的 值 相对 于 其 当前 值 变化 时 ， 可 以 使 用 一 些 简便 的 写法 。 
口 递增 /递减 运算 符 ，++i; 等 价 于 i=i+1; 且 表 达 式 为 i+1;。 类 似 地 ，--i; 等 价 于 i=i- 
1;i++;。 和 i--; 的 意思 相同 ， 只 是 表达 式 的 值 为 i 的 值 。 
口 其 他 复合 运算 符 ， 在 赋值 语句 中 将 一 个 二 元 运算 符 写 在 等 号 之 前 ， 等 价 于 将 左边 的 变量 放 在 
等 号 右边 并 作为 第 一 个 操作 数 。 例 如 ，i/=2; 等 价 于 i=i/2;。 注 意 ,i += 1; 等 价 于 i = 
+ 1; (以 及 ++i;)。 
1.1.4.3 单 语 句 代码 段 
如 果 条 件 或 循环 语句 的 代码 段 只 有 一 条 语句 ， 代 码 段 的 花 括号 可 以 省 略 。 
1.1.4.4 for 语句 
很 多 循环 的 模式 都 是 这 样 的 :初始 化 一 个 索引 变量 ， 然 后 使 用 while 循环 并 将 包含 索引 变量 的 
表达 式 作为 循环 的 条 件 ，while 循环 的 最 后 一 条 语句 会 将 索引 变量 加 1。 使 用 Java 的 for 语句 可 以 
更 紧凑 地 表达 这 种 循环 : 


for (<initialize>; <boolean expression>; <increment>) 














<block statements> 


除了 几 种 特殊 情况 之 外 ， 这 段 代 码 都 等 价 于 : 
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<initialize>; 


while (<boolean expression>) 


<block statements> 


<increment>; 


我 们 将 使 用 for 语句 来 表示 对 这 种 初始 化 一 递增 循环 用 法 的 支持 。 












































16 
表 1.1.3 总 结 了 各 种 Java 语句 及 其 示例 与 定义 。 
表 1.1.3 Java 语句 
一 一 一 
语句 示 例 王 : 六 

声明 语句 int 1; 创建 一 个 指定 类 型 的 变量 并 用 标识 符 
double ci 命名 

赋值 语句 a=b+3; 将 某 一 数据 类 型 的 值 赋予 一 个 变量 
discriminant = b* b - 4.0*ci 

声明 并 初始 化 int i = 1; 在 声明 时 赋予 变量 初始 值 
double c = 3.14159265; 

隐 式 赋值 + i=i+l; 
i 1 

条 件 语句 (if) if (x < 0) x = -xi 根据 布尔 表达 式 的 值 执行 一 条 语句 

条 件 语句 (if-else) if (x > y) max = xi 根据 布尔 表达 式 的 值 执行 两 条 请 句 中 
else max = y; 的 一 条 

循环 语句 (while ) int v= 0; 执行 语句 ， 直 至 布尔 表达 式 的 值 变 为 
while(v <= N) 假 (false) 

VvV=2*yv; 

double t = ci 
while (Math.abs(t - c/t) > le-15*t) 
t= (cc/t+t) /2.0; 

循环 语句 ( for ) for (int i = 1; 1 <= Ni i++) while 语句 的 简化 版 

Sum += 1.0/i; 
for (int 1 = 0; i <= Ni i++) 
StdOut .print1nC2*Math. PI*i/N); 
调用 语句 int key = StdIn.readInt(); 调用 另 一 方法 (请 见 1.1.6.2 节 ) 
17 返回 语句 return false; 从 方法 中 返回 (请 见 1.1.6.3 节 ) 
1.1.5 数组 


数组 能 够 顺序 存储 相同 类 型 的 多 个 数据 。 除 了 存储 数据 ， 我 们 也 希望 能 够 访问 数据 。 访 问 数 组 
中 的 某 个 元 素 的 方法 是 将 其 编号 然后 索引 。 如 果 我 们 有 N 个 值 ， 它 们 的 编号 则 为 0 至 N-1。 这 样 对 
于 0 到 NA-1 之 间 任 意 的 1， 我们 就 能 够 在 Java 代码 中 用 a[i] 唯一 地 表示 第 i 个 元 素 的 值 。 在 Java 
中 这 种 数组 被 称 为 一 维 数 组 。 
1.1.5.1 创建 并 初始 化 数组 

在 Java 程序 中 创建 一 个 数组 需要 三 步 : 

口 声明 数组 的 名 字 和 类 型 ; 


口 创建 数组 ; 


口 初始 化 数组 元 素 。 
在 声明 数组 时 ， 需 要 指定 数组 的 名 称 和 它 含有 的 数据 的 类 型 。 在 创建 数组 时 ， 需 要 指定 数组 的 
长 度 (元 素 的 个 数 )。 例 如 , 在 以 下 代码 中 ,“ 完 整 模 式 " 部 分 创建 了 一 个 有 N 个 元 素 的 double 数组 ， 
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所 有 的 元 素 的 初始 值 都 是 0.0。 第 一 条 语句 是 数组 的 。 ”完整 模式 声明 数组 


声明 ， 它 和 声明 一 个 相应 类 型 的 原始 数据 类 型 变量 double[] ai 一 一 创建 
十 分 相似 ， 只 有 类 型 名 之 后 的 方 括号 说 明 我 们 声明 EN 

or (int i = 0; i < N; i++) 
的 是 一 个 数组 。 第 二 条 语句 中 的 关键 字 new 使 Java 3 二 
创建 了 这 个 数组 。 我 们 需要 在 运行 时 明确 地 创建 数 入 化 写法 ~ 化 数组 
组 的 原因 是 Java 编译 器 在 编译 时 无 法 知道 应 该 为 数 a 


组 预 留 多 少 空间 ( 对 于 原始 类 型 则 可 以 ) 。for 语 
名 初始 化 了 数组 的 N 个 元 素 , 将 它们 的 值 普 为 0.0。 声明 初始 化 


在 代码 中 使 用 数组 时 ， 一 定 要 依次 声明 、 创 建 并 初 int[] a= {1,1,2,3,5,8}; 
始 化 数组 。 忽 略 了 其 中 的 任何 一 步 都 是 很 常见 的 编 声明 、 创 建 并 初始 化 一 个 数组 
1.1.5.2 简化 写法 


为 了 精简 代码 ， 我 们 常常 会 利用 Java 对 数组 默认 的 初始 化 来 将 三 个 步骤 合 为 一 条 语句 ， 即 上 例 
中 的 简化 写法 。 等 号 的 左 侧 声明 了 数组 ， 等 号 的 右 侧 创建 了 数组 。 这 种 写法 不 需要 for 循环 ， 因 为 
在 一 个 Java 数组 中 double 类 型 的 变量 的 默认 初始 值 都 是 0.0， 但 如 果 你 想 使 用 不 同 的 初始 值 ， 那 
么 就 需要 使 用 for 循环 了 。 数 值 类 型 的 默认 初始 值 是 0， 布 尔 型 的 默认 初始 值 是 false。 例 子 中 的 
第 三 种 方式 用 花 括 号 将 一 列 由 逗号 分 隔 的 值 在 编译 时 将 数组 初始 化 。 
1.1.5.3 ”使 用 数组 

典型 的 数组 处 理 代码 请 见 表 1.1.4。 在 声明 并 创建 数组 之 后 ， 在 代码 的 任何 地 方 都 能 通过 数组 
名 之 后 的 方 括号 中 的 索引 来 访问 其 中 的 元 素 。 数 组 一 经 创建 ， 它 的 大 小 就 是 固定 的 。 程 序 能 够 通过 
a.1ength 获取 数组 a[] 的 长 度 ， 而 它 的 最 后 一 个 元 素 总 是 a[a.1ength - 1] 。Java 会 自动 进行 边 
界 检 查 一 一 如 果 你 创建 了 一 个 大 小 为 N 的 数组 ,但 使 用 了 一 个 小 于 0 或 者 大 于 N-1 的 索引 访问 它 ， 
程序 会 因为 运行 时 抛 出 ArrayOutOfBoundsException 异常 而 终止 。 


表 1.1.4 典型 的 数组 处 理 代码 


任 务 实现 (代码 片段 ) 


找 出 数组 中 最 大 的 元 素 double max = a[0]; 
for (int i = 1; i < a.length; i++) 
if (a[i] > max) max = a[i]; 


计算 数组 元 素 的 平均 值 int N = a.length; 
double sum = 0.0; 

for (int 1 = 0; i < Ni i++) 

Sum += a[i]; 

double average = sum / Ni 


复制 数组 int N = a.length; 
double[] b = new double[N]; 
for (int 1 = 0; i < N; i++) 
b[i] = a[i]; 
其 倒数 组 元 素 的 顺序 int N = a.length; 
for (int i = 0; i < N/2; i++) 
和 




















double temp = a[i]; 
a[i] = a[N-1-i]; 
a[N-i-1] = temp; 
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( 续 ) 
| - 兽 实现 〈 代 码 片段 ) 
矩阵 相 乘 ( 方 阵 ) int N = a.length; 

ar * bD0 = cD] double[][] c = new double[N][N]; 
for (int 1 = 0; i < Ni i++) 

for (int k = 0; k < Ni k++) 

. c[ij[j] += a[i] [k]*b[k] 1; 
a 


1.1.5.4 起 别名 

请 注意 ， 数 组 名 表示 的 是 整个 数组 一 如 果 我 们 将 一 个 数组 变量 赋予 另 一 个 变量 ， 那 么 两 个 变 
量 将 会 指向 同一 个 数组 。 例 如 以 下 这 段 代 码 : 

int[] a = new int[N]; 

ali] = 1234; 

intD] b = ai 

bf = 5678; // a[i] 的 值 也 会 变 成 5678 
这 种 情况 叫做 起 别名 , 有 时 可 能 会 导致 难以 察觉 的 问题 如果 你 是 想 将 数组 复制 一 份 ,那么 应 该 声明 、 
创建 并 初始 化 一 个 新 的 数组 ， 然 后 将 原 数组 中 的 元 素 值 挨个 复制 到 新 数组 ， 如 表 1.1.4 的 第 三 个 例 
子 所 示 。 
1.1.5.5 ”二 维 数组 

在 Java 中 二 维 数组 就 是 一 维 数组 的 数组 。 二 维 数组 可 以 是 参差 不 齐 的 (元 素数 组 的 长 度 可 以 不 
一 致 ) ,但 大 多 数 情况 下 ( 根据 合适 的 参数 M 和 N) 我 们 都 会 使 用 Mx N， 即 M 行 长 度 为 的 数 
组 的 二 维 数组 ( 也 可 以 称 数组 含有 N 列 ) 。 在 Java 中 访问 二 维 数组 也 很 简单 。 二 维 数组 a[] [] 的 
第 站 行 第 j 列 的 元 素 可 以 写作 a[i] [ 订 。 声 明 二 维 数组 需要 两 对 方 括号 。 创 建 二 维 数组 时 要 在 类 型 
名 之 后 分 别 在 方 括号 中 指定 行 数 以 及 列 数 ， 例 如 : 

double[][] a = new double[M][N]; 
我 们 将 这 样 的 数组 称 为 Mx N 的 数组 。 我 们 约定 ,第 一 维 是 行 数 ， 第 二 维 是 列 数 。 和 一 维 数组 一 样 ， 
Java 会 将 数值 类 型 的 数组 元 素 初 始 化 为 0， 将 布尔 型 的 数组 元 素 初始 化 为 false。 默 认 的 初始 化 对 
二 维 数组 更 有 用 ， 因 为 可 以 节约 更 多 的 代码 。 下 面 这 段 代码 和 刚才 只 用 一 行 就 完成 创建 和 初始 化 的 
语句 是 等 价 的 : 


double[][] a; 

a = new double[M] [N]; 

for (int i = 0; 1 < Mi i++) 
for (int j = 0; j < Ni j++) 

a[i][j] = 0.0; 


在 将 二 维 数组 初始 化 为 0 时 这 段 代码 是 多 余 的 ， 但 是 如 果 想 要 初始 化 为 其 他 值 ， 我 们 就 需要 嵌 
套 的 for 循环 了 。 


1.1.6 ”静态 方法 
本 书 中 的 所 有 Java 程序 要 么 是 数据 类 型 的 定义 ( 详 见 1.2 节 ) ， 要 么 是 一 个 静态 方法 库 。 在 许 
多 语言 中 ， 尊 态 方法 被 称 为 函数， 因为 它们 和 数学 函数 的 性 质 类 似 。 静 态 方法 是 一 组 在 被 调用 时 会 
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被 顺序 执行 的 语句 。 修 饰 符 static 将 这 类 方法 和 1.2 节 的 实例 方法 区 别 开 来 。 当 讨论 两 类 方法 共 
有 的 属性 时 我 们 会 使 用 不 加 定语 的 方法 一 词 。 
1.1.6.1 静态 方法 

方法 封装 了 由 一 系列 语句 所 描述 的 运 签名 


算 。 方 法 需要 参数 ( 某 种 数据 类 型 的 值 ) 并 BP 
































根据 参数 计算 出 某 种 数据 类 型 的 返回 值 ( 例 i ee 区 让 
如 数学 函数 的 结果 ) 或 者 产生 某 种 副作用 ( 例 { 





如 打印 一 个 值 ) 。BinarySearch 中 的 静态 函 if (c < 0) return Double.NaN; 
Ee 局 部 ~ double err = le-15; 


数 rank() 是 前 者 的 一 个 例子 ; main() 则 是 。 变量 [goubTe t= c; 
后 者 的 一 个 例子 。 每 个 静态 方法 都 是 由 签名 ”如 数 体 一 -|while KMath.absCt - CJt)] > err * t) 









































(关键 字 pub1ic static 以 及 函数 的 返回 值 ， et [of + /2.0; 
方法 名 以 及 一 串 各 种 类 型 的 参数 ) 和 函数 体 } : 
返回 语句 调用 另 一 个 方法 
( 即 包含 在 花 括号 中 的 代码 ) 组 成 的 ， 如 图 
1.1.2 所 示 。 静 态 函数 的 例子 请 见 表 1.1.5。 图 1.1.2 静态 方法 解析 
表 1.1.5 典型 静态 方法 的 实现 
任 务 实 现 
计算 一 个 整数 的 绝对 值 publie statte int absCint 办 
if (x < 0) return -xi 
else return xj 
计算 一 个 浮 点 数 的 绝对 值 public static double abs(double x) 
if (x < 0.0) return -x; 
else return x; 
} 
判定 一 个 数 是 否 是 素数 public static boolean ispPrime(Cint N) 
{ 


if (CN < 2) return false; 

for (int i = 2; i*i <= Ni i++) 
if (N % i == 0) return false; 

return true; 





计算 平方 根 ( 牛顿 迁 代 法 ) public static double sqrt(double c) 
{ 


if (c < 0) return Double.NaN; 

double err = le-15; 

double t = ci 

while (Math.abs(t - c/t) > err * t) 
t= (ct+t) /2.0; 

return t; 





计算 直角 三 角形 的 斜 边 public static double hypotenuse(double a, double b) 
{ return Math.sqrt(a*a + b*b); } 


计算 调和 级 数 (请 见 表 1.4.5) 。 public static double HCint N) 
double sum = 0.0; 
for (int 1 = 1; i <= N; i++) 
sum += 1.0 / i; 
return sum; 





} 
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1.1.6.2 ”调用 静态 方法 
调用 静态 方法 的 方法 是 写 出 方法 名 并 在 后 面 的 括号 中 列 出 参数 值 ， 用 逗号 分 隔 。 当 调用 是 表达 
式 的 一 部 分 时 ， 方 法 的 返回 值 将 会 替代 表达 式 中 的 方法 调用 。 例 如 ，BinarySearch 中 调用 rankO 
返回 了 一 个 int 值 。 仅 由 一 个 方法 调用 和 一 个 分 号 组 成 的 语句 一 般 用 于 产生 副作用 。 例 如 ， 
BinarySearch 的 main() 函数 中 对 系统 方法 Arrays .sort() 的 调用 产生 的 副作用 ， 是 将 数组 中 的 所 
有 条 目 有 序 地 排列 。 调 用 方法 时 ， 它 的 参数 变量 将 被 初始 化 为 调用 时 所 给 出 的 相应 表达 式 的 值 。 返 
好 | 回 语句 将 结束 静态 方法 并 将 控制 权 交还 给 调用 者 。 如 果 静 态 方法 的 目的 是 计算 某 个 值 ， 返 回 语句 应 
23」 该 指定 这 个 值 ( 如 果 这 样 的 静态 方法 在 执行 完 所 有 的 语句 之 后 都 没有 返回 语句 ， 编 译 器 会 报错 ) 。 
1.1.6.3 方法 的 性 质 
对 方法 所 有 性 质 的 完整 描述 超出 了 本 书 的 范畴 ， 但 以 下 几 点 值得 一 提 。 
口 方法 的 参数 按 值 传递 ; 在 方法 中 参数 变量 的 使 用 方法 和 局 部 变量 相同 ， 唯 一 不 同 的 是 参数 变 
量 的 初始 值 是 由 调用 方 提供 的 。 方 法 处 理 的 是 参数 的 值 ， 而 非 参数 本 身 。 这 种 方式 产生 的 
结果 是 在 静态 方法 中 改变 一 个 参数 变量 的 值 对 调用 者 没有 影响 。 本 书 中 我 们 一 般 不 会 修改 
参数 变量 。 值 传递 也 意味 着 数组 参数 将 会 是 原 数组 的 别名 ( 见 1.1.5.4 节 ) 一 一 方法 中 使 用 
的 参数 变量 能 够 引用 调用 者 的 数组 并 改变 其 内 容 ( 只 是 不 能 改变 原 数组 变量 本 身 ) 。 例 如 ， 
Arrays.sort() 将 能 够 改变 通过 参数 传递 的 数组 的 内 容 ， 将 其 排序 。 
口 方法 名 可 以 被 重 载 : 例如 ，Java 的 Math 包 使 用 这 种 方法 为 所 有 的 原始 数值 类 型 实现 了 
Math.abs() 、Math.min() 和 Math.max() 函数 。 重 载 的 另 一 种 常见 用 法 是 为 函数 定义 两 个 
版 本 ， 其 中 一 个 需要 一 个 参数 而 另 一 个 则 为 该 参数 提供 一 个 默认 值 。 
口 方法 只 能 返回 一 个 值 ， 但 可 以 包含 多 个 返回 语句: 一 个 Java 方法 只 能 返回 一 个 值 ， 它 的 类 
型 是 方法 签名 中 声明 的 类 型 。 静 态 方法 第 一 次 执行 到 一 条 返回 语句 时 控制 权 将 会 回 到 调用 代 
码 中 。 尽 管 可 能 存在 多 条 返回 语句 ， 任 何 静态 方法 每 次 都 只 会 返回 一 个 值 ， 即 被 执行 的 第 一 
条 返回 语句 的 参数 。 
口 方法 可 以 产生 副作用 : 方法 的 返回 值 可 以 是 void， 这 表示 该 方法 没有 返回 值 。 返 回 值 为 
void 的 静态 函数 不 需要 明确 的 返回 语句 ， 方 法 的 最 后 一 条 语句 执行 完毕 后 控制 权 将 会 返回 
给 调用 方 。 我 们 称 void 类 型 的 静态 方法 会 产生 副作用 ( 接受 输入 、 产 生 输 出 、 修 改 数组 或 
者 改变 系统 状态 ) 。 例 如 ， 我 们 的 程序 中 的 静态 方法 main() 的 返回 值 就 是 void， 因 为 它 
的 作用 是 向 外 输出 。 技 术 上 来 说 ， 数 学 方法 的 返回 值 都 不 会 是 void ( Math. random() 虽然 
不 接受 参数 但 也 有 返回 值 ) 。 
2.1 节 所 述 的 实例 方法 也 拥有 这 些 性 质 ， 尽 管 两 者 在 副作用 方面 大 为 不 同 。 
1.1.6.4 递归 
方法 可 以 调用 自己 ( 如 果 你 对 递归 概念 感到 奇怪 ， 请 完成 练习 1.1.16 到 练习 1.1.22 ) 。 例 如 ， 
下 面 给 出 了 BinarySearch 的 rank0) 方法 的 另 一 种 实现 。 我 们 会 经 常 使 用 递归 ， 因 为 递归 代码 比 
相应 的 非 递归 代码 更 加 简洁 优雅 、 易 懂 。 下 面 这 种 实现 中 的 注释 就 言 简 意 凡 地 说 明了 代码 的 作用 。 
我 们 可 以 用 数学 归纳 法 证 明 这 段 注释 所 解释 的 算法 的 正确 性 。 我 们 会 在 3.1 节 中 展开 这 个 话题 并 为 
二 分 查找 提供 一 个 这 样 的 证 明 。 
编写 递归 代码 时 最 重要 的 有 以 下 三 点 。 
口 递归 总 有 一 个 最 简单 的 情况 一 一 方法 的 第 一 条 语句 总 是 一 个 包含 return 的 条 件 语句 。 
口 递归 调用 总 是 去 尝试 解决 一 个 规模 更 小 的 子 问题 ， 这 样 递归 才能 收敛 到 最 简单 的 情况 。 在 下 
面 的 代码 中 ,第 四 个 参数 和 第 三 个 参数 的 差 值 一 直 在 缩小 。 
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口 递归 调用 的 父 问 题 和 尝试 解决 的 子 问题 之 间 不 应 该 有 交集 。 在 下 面 的 代码 中 ， 两 个 子 问题 各 
自 操作 的 数组 部 分 是 不 同 的 。 


public static int rank(int key, int[] a) 
{ return rank(key, a, 0, a.length - 1); } 


public static int rank(Cint key, int[] a, int lo, int hi) 
{ // 如 果 key 存 在 于 a[] 中 ， 它 的 索引 不 会 小 于 10 且 不 会 大 于 hi 

if (lo > hi) return -1; 

int mid = lo + (hi - 10) / 2; 





if key < a[mid]) return rank(key, a, 10, mid - 1); 
else if (key > a[mid]) return rank(key, a, mid + 1, hi); 
else return mid; 
} 
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违背 其 中 任意 一 条 都 可 能 得 到 错误 的 结果 或 是 低 效 的 代码 ( 见 练 习 1.1.19 和 练习 1.1.27) ,而 
坚持 这 些 原则 能 写 出 清晰 、 正 确 且 容易 评估 性 能 的 程序 。 使 用 递归 的 另 一 个 原因 是 我 们 可 以 使 用 数 
学 模型 的 来 估计 程序 的 性 能 。 我 们 会 在 3.2 节 的 二 分 查找 以 及 其 他 几 个 地 方 分 析 这 个 问题 。 
1.1.6.5 ”基础 编程 模型 

静态 方法 库 是 定义 在 一 个 Java 类 中 的 一 组 静态 方法 。 类 的 声明 是 pub1ic class 加 上 类 名 ， 以 
及 用 花 括号 包含 的 静态 方法 。 存 放 类 的 文件 的 文件 名 和 类 名 相同 ， 扩 展 名 是 java。Java 开发 的 基本 
模式 是 编写 一 个 静态 方法 库 ( 包含 一 个 main() 方法 ) 来 完成 一 个 任务 。 输 入 java 和 类 名 以 及 一 系 
列 字符 串 就 能 调用 类 中 的 main() 方法 ， 其 参数 为 由 输入 的 字符 串 组 成 的 一 个 数组 。main() 的 最 后 

-条 语句 执行 完毕 之 后 程序 终止 。 在 本 书 中 ， 当 我 们 提 到 用 于 执行 一 项 任务 的 Java 程序 时 ， 我 们 指 
的 是 用 这 种 模式 开发 的 代码 ( 可 能 还 包括 对 数据 类 型 的 定义 ， 如 1.2 节 所 示 ) 。 例 如 ，BinarySearch 
就 是 一 个 由 两 个 静态 方法 rankC) 和 main() 组 成 的 Java 程序 ， 它 的 作用 是 将 输入 中 所 有 不 在 通过 
命令 行 指定 的 白 名 单 中 的 数字 打印 出 来 。 
1.1.6.6 ”模块 化 编程 

这 个 模型 的 最 重要 之 处 在 于 通过 静态 方法 库 实现 了 模块 化 编程 。 我 们 可 以 构造 许多 个 静态 方法 
库 (模块 ) ， 一 个 库 中 的 静态 方法 也 能 够 调用 另 一 个 库 中 定义 的 静态 方法 。 这 能 够 带 来 许多 好 处 : 

口 程序 整体 的 代码 量 很 大 时 ， 每 次 处 理 的 模块 大 小 仍然 适中 ; 

口 可 以 共享 和 重用 代码 而 无 需 重新 实现 ; 

口 很 容易 用 改进 的 实现 替换 老 的 实现 ; 

口 可 以 为 解决 编程 问题 建立 合适 的 抽象 模型 ; 

口 缩小 调试 范围 ( 请 见 1.1.6.7 节 关 于 单元 测试 的 讨论 ) 。 

例如 ，BinarySearch 用 到 了 三 个 独立 的 库 ， 即 我 们 的 StdOut 和 StdIn 以 及 Java 的 Arrays， 而 这 
三 个 库 又 分 别 用 到 了 其 他 的 库 。 
1.1.6.7 单元 测试 

Java 编程 的 最 佳 实践 之 一 就 是 每 个 静态 方法 库 中 都 包含 一 个 main() 函数 来 测试 库 中 的 所 有 方 
法 ( 有 些 编程 语言 不 支持 多 个 main() 方法 ， 因 此 不 支持 这 种 方式 ) 。 恰 当 的 单元 测试 本 身 也 是 很 
有 挑战 性 的 编程 任务 。 每 个 模块 的 main() 方法 至 少 应 该 调用 模块 中 的 其 他 代码 并 在 某 种 程度 上 保 





16 办 第 1 章 基 础 





26 














27 








证 它 的 正确 性 。 随 着 模块 的 成 熟 ， 我 们 可 以 将 main( 方法 作为 一 个 开发 用 例 ， 在 开发 过 程 中 用 它 
来 测试 更 多 的 细节 ; 也 可 以 把 它 编 成 一 个 测试 用 例 来 对 所 有 代码 进行 全 面 的 测试 。 当 用 例 越 来 越 复 
杂 时 ， 我 们 可 能 会 将 它 独立 成 一 个 模块 。 在 本 书 中 ,我 们 用 main() 来 说 明 模块 的 功能 并 将 测试 用 
例 留 做 练习 。 
1.1.6.8 外 部 库 
我 们 会 使 用 来 自 4 个 不 同类 型 的 库 中 的 静态 方法 ， 重 用 每 种 库 代码 的 方式 都 稍 有 不 同 。 它 们 大 
多 都 是 静态 方法 库 ， 但 也 有 部 分 是 数据 类 型 的 定义 并 包含 了 一 些 静态 方法 。 
口 系统 标准 库 java.lang.*: 这 其 中 包括 Math 库 ,， 实现 了 常用 的 数学 函数 ;Integer 和 Double 库 ， 
能 够 将 字符 串 转化 为 int 和 double 值 ; String 和 StringBuilder 库 ， 我 们 稍 后 会 在 本 节 和 第 
5 章 中 详细 讨论 ; 以 及 其 他 一 些 我 们 没有 用 到 的 库 。 
口 导入 的 系统 库 ， 例 如 java.utils.Arrays: 每 个 标准 的 Java 版 本 中 都 含有 上 千 个 这 种 类 型 的 库 ， 
不 过 本 书 中 我 们 用 到 的 并 不 多 。 要 在 程序 的 开头 使 用 import 语句 导入 才能 使 用 这 些 库 (我 
们 也 是 这 样 做 的 ) 。 
口 本 书 中 的 其 他 库 : 例如 ,其 他 程序 也 可 以 使 用 BinarySearch 的 rank() 方法 。 要 使 用 这 些 库 ， 
请 在 本 书 的 网 站 上 下 载 它们 的 源 代码 并 放 和 人 你 的 工作 目录 中 。 
口 我 们 为 本 书 (以 及 我 们 的 另 一 本 入 门 教材 4n fntroduction 系统 标准 库 


to programming in Java: An Interdisciplinary Approach ) 开 Math 
发 的 标准 库 Std*: 我 们 会 在 下 面 简要 地 介绍 这 些 库 ， 它 oy 
们 的 源 代码 和 使 用 方法 都 能 够 在 本 书 的 网 站 上 找到 。 String 

要 调用 另 一 个 库 中 的 方法 ( 存放 在 相同 或 者 指定 的 目录 中 ， be 


System 


或 是 一 个 系统 标准 库 ， 或 是 在 类 定义 前 用 import 语句 导入 的 。 ”导入 的 系统 库 
库 ) ， 我 们 需要 在 方法 前 指定 库 的 名 称 。 例 如 ，BinarySearch 的 depenays 


main() 方法 调用 了 系统 库 javautils Arrays 的 sort(C 方法 ， 我 我 们 的 标准 库 
们 的 库 StdIn 中 的 readInts 0) 方法 和 StdOut 库 中 的 printlnO) Stdout 
StdDraw 
方法 。 StdRandom 
我 们 自己 及 他 人 使 用 模块 化 方式 编写 的 方法 库 能 够 极 大 地 扩 StdStats 
展 我 们 的 编程 模型 ,除了 在 Java 的 标准 版 本 中 可 用 的 所 有 库 之 外 ， a 


网 上 还 有 成 千 上 万 各 种 用 途 的 代码 库 。 为 了 将 我 们 的 编程 模型 限 。 含有 静态 方法 的 数据 类 型 的 定义 
制 在 一 个 可 控 范围 之 内 ， 以 将 精力 集中 在 算法 上 ， 我 们 只 会 使 用 本 书 使 用 的 含有 静态 方法 的 库 
以 下 所 示 的 方法 库 ， 并 在 1.1.7 节 中 列 出 了 其 中 的 部 分 方法 。 


1.1.7 API 


模块 化 编程 的 一 个 重要 组 成 部 分 就 是 记录 库 方法 的 用 法 并 供 其 他 人 参考 的 文档 。 我 们 会 统一 使 
用 应 用 程序 编程 接口 (API ) 的 方式 列 出 本 书 中 使 用 的 每 个 库 方法 名 称 、 签 名 和 简短 的 描述 。 我 们 
用 用 例 来 指 代 调用 另 一 个 库 中 的 方法 的 程序 ， 用 实现 描述 实现 了 某 个 API 方法 的 Java 代码 。 
1.1.7.1 举例 

在 表 1.1.6 的 例子 中 ,我们 用 java.lang 中 Math 库 常用 的 静态 方法 说 明 API 的 文档 格式 。 

这 些 方法 实现 了 各 种 数学 函数 一 一 它们 通过 参数 计算 得 到 某 种 类 型 的 值 ( random() 除外 ， 它 
没有 对 应 的 数学 函数 ， 因 为 它 不 接受 参数 ) 。 它 们 的 参数 都 是 double 类 型 且 返 回 值 也 都 是 double 
类 型 ， 因 此 可 以 将 它们 看 做 double 数据 类 型 的 扩展 一 一 这 种 扩展 的 能 力 正 是 现代 编程 语言 的 特性 
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之 一 。API 中 的 每 一 行 描述 了 一 个 方法 ， 提 供 了 使 用 该 方法 所 需要 知道 的 所 有 信息 。Math 库 也 定义 
了 常数 PI (圆周率 r ) 和 E ( 自然 对 数 e ) , 你 可 以 在 自己 的 程序 中 通过 这 些 变量 名 引用 它们 。 例 如 ， 
Math.sin(Math.PI/2) 的 结果 是 1.0，Math.1og(Math.E) 的 结果 也 是 1.0 ( 因为 Math.sin() 
的 参数 是 弧度 而 Math.1og() 使 用 的 是 自然 对 数 函 数 ) 。 


表 1.1.6 ”Java 的 数学 函数 库 的 API (节选 ) 





public class Math 








static double abs(double a) a 的 绝对 值 
static double max(double a, double b) a 和 4b 中 的 较 大 者 
Static double min(double a, double b) a 和 4b 中 的 较 小 者 
注 1: abs()、max() 和 min( 也 定义 了 int、1ong 和 float 的 版 本 

static double sin(double theta) 正弦 函数 
static double cos(double theta) 余弦 函数 
static double tan(double theta) 正切 函数 





注 2; 角 用 弧度 表示 ， 可 以 使 用 toDegrees() 和 toRadians() 转换 角度 和 弧度 
注 3: 它们 的 反 函 数 分 别 为 asin()、acos() 和 atan() 














static double exp(double a) 指数 函数 (e ) 
static double log(double a) 自然 对 数 函 数 (log.a， 即 Ina) 
static double pow(double a, double b) 求 a 的 b 次 方 (o) 
static double random() [0, D 之 间 的 随机 数 
static double sqrt(double a) a 的 平方 根 
static double E 常数 e (常数 ) 
static double PI 常数 (常数 ) 28 
其 他 函数 请 见 本 书 的 网 站 
1.1.7.2 ”Java 库 


成 千 上 万 个 库 的 在 线 文档 是 Java 发 布 版 本 的 一 部 分 。 为 了 更 好 地 描述 我 们 的 编程 模型 ， 我 们 只 
是 从 中 节选 了 本 书 所 用 到 的 若干 方法 。 例 如 ，BinarySearch 中 用 到 了 Java 的 Arrays 库 中 的 sort() 
方法 ,我 们 对 它 的 记录 如 表 1.1.7 所 示 。 


表 1.1.7 Java 的 Arrays 库 节选 (java.util.Arrays) 
public class Arrays 
static void sort(int[] a) 将 数组 按 升序 排序 
注 : 其 他 原始 类 型 和 Object 对 象 也 有 对 应 版 本 的 方法 。 


Arrays 库 不 在 java.lang 中 ， 因 此 我 们 需要 用 import 语句 导入 后 才能 使 用 它 ， 与 BinarySearch 
中 一 样 。 事 实 上 ， 本 书 的 第 2 章 讲 的 正 是 数组 的 各 种 sortQ 方法 的 实现 ,包括 Arrays.sortQ 〇 中 
实现 的 归并 排序 和 快速 排序 算法 。Java 和 很 多 其 他 编程 语言 都 实现 了 本 书 讲解 的 许多 基础 算法 。 例 
如 ，Arrays 库 还 包含 了 二 分 查找 的 实现 。 为 避免 混淆 ， 我 们 一 般 会 使 用 自己 的 实现 ,但 对 于 你 已 经 
掌握 的 算法 使 用 高 度 优化 的 库 实 现 当然 也 没有 任何 问题 。 又 
1.1.7.3 ”我 们 的 标准 库 

为 了 介绍 Java 编程 、 为 了 科学 计算 以 及 算法 的 开发 、 学 习 和 应 用 ， 我 们 也 开发 了 若干 库 来 提供 
一 些 实用 的 功能 。 这 些 库 大 多 用 于 处 理 输 入 输出 。 我 们 也 会 使 用 以 下 两 个 库 来 测试 和 分 析 我 们 的 实 




















18 me 第 1 章 基 础 





30 








现 。 第 一 个 库 扩展 了 Math. random() 方法 ( 见 表 1.1.8 ) ， 以 根据 不 同 的 概率 密度 函数 得 到 随机 值 ; 
第 二 个 库 则 支持 各 种 统计 计算 ( 见 表 1.1.9 ) 。 


表 1.1.8 我 们 的 随机 数 静态 方法 库 的 API 





public class StdRandom 





static void initialize(long seed) 初始 化 

static double random() 0 到 1 之 间 的 实数 

static int uniformCint N) 0 到 N-1 之 间 的 整数 

static int uniform(int 1o，int hi) 1o 到 hi-1 之 间 的 整数 

static double uniform(double 1o，double hi) 1o 到 hi 之 间 的 实数 

static boolean bernoulli(double p) 返回 真 的 概率 为 p 

static double gaussian() 正 态 分 布 ， 期 望 值 为 0， 标准 差 为 1 
static double gaussian(double m, double s) 正 态 分 布 ， 期 望 值 为 m， 标 准 差 为 s 
static int discrete(double[] a) 返回 1 的 概率 为 a[i] 

static void shuffle(double[] a) 将 数组 a 随机 排序 


注 ; 库 中 也 包含 为 其 他 原始 类 型 和 Object 对 象 重 载 的 shuffle() 函 教 


表 1.1.9 我 们 的 数据 分 析 静 态 方法 库 的 API 
ni 


public class StdStats 





Static double max(double[] a) 最 大 值 
Static double min(double[] a) 最 小 值 
Static double mean(double[] a) 平均 值 
static double var(double[] a) 采样 方差 
static double stddev(double[] a) 采样 标准 差 
static double median(double[] a) 中 位 数 


StdRandom 的 initialize() 方法 为 随机 数 生成 器 提供 种 子 ， 这 样 我 们 就 可 以 重复 和 随机 数 有 
关 的 实验 。 以 上 一 些 方法 的 实现 请 参考 表 1.1.10。 有 些 方法 的 实现 非常 简单 ， 为 什么 还 要 在 方法 库 
中 实现 它们 ? 设计 良好 的 方法 库 对 这 个 问题 的 标准 回答 如 下 。 
口 这 些 方法 所 实现 的 抽象 屋 有 助 于 我 们 将 精力 集中 在 实现 和 测试 本 书 中 的 算法 ， 而 非 生 成 随机 
数 或 是 统计 计算 。 每 次 都 自己 写 完成 相同 计算 的 代码 ， 不 如 直接 在 用 例 中 调用 它们 要 更 简洁 
易 懂 。 
口 方法 库 会 经 过 大 量 测试 ， 覆 盖 极 端 和 罕见 的 情况 ， 是 我 们 可 以 信任 的 。 这 样 的 实现 需要 大 量 
的 代码 。 例 如 ， 我 们 经 常 需要 使 用 的 各 种 数据 类 型 的 实现 ， 又 比如 Java 的 Arrays 库 针对 不 
同 数据 类 型 对 sort() 进行 了 多 次 重 载 。 
这 些 是 Java 模 块 化 编程 的 基础 ,不 过 在 这 里 可 能 有 些 夸张 ,但 这 些 方法 库 的 方法 名 称 简单 .实现 容易 ， 
其 中 一 些 仍然 能 作为 有 趣 的 算法 练习 。 因 此 ， 我 们 建议 你 到 本 书 的 网 站 上 去 学 习 一 下 StdRandom. 
java 和 StdStatsjava 的 源 代码 并 好 好 利用 这 些 经 过 验证 了 的 实现 。 使 用 这 些 库 ( 以 及 检验 它们 ) 最 
简单 的 方法 就 是 从 网 站 上 下 载 它们 的 源 代码 并 放 入 你 的 工作 目录 。 网 站 上 讲解 了 在 各 种 系统 上 使 用 
它们 的 配置 目录 的 方法 。 
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表 1.1.10 StdRandom 库 中 的 静态 方法 的 实现 


期 望 的 结果 


实 现 





随机 返回 [a,b) 之 间 的 一 个 double 值 


public static double uniform(double a, double b) 
{ return a + StdRandom.random() * (b-a); 





随机 返回 [0. .N) 之 间 的 一 个 int 值 


public static int uniformCint N) 


{ return (int) (StdRandom.random() * N); } 





随机 返回 [1o,hi) 之 间 的 一 个 int 值 public static int uniform(int lo, int hi) 


{ return lo + StdRandom.uniform(hi - 10); } 





public static int discrete(double[] a) 
{ // a[] 中 各 元 素 之 和 必须 等 于 1 
double r = StdRandom.random(); 
double sum = 0.0; 


根据 离散 概率 随机 返回 的 int 值 (出 现 1 for (int i = 0; i < a.length; i++) 


{ 
的 概率 为 a[i] ) Sum = sum + a[i]; 


if (sum >= r) return i; 
} 
return -1; 
} 





public static void shuffle(double[] a) 
€ 


int N = a.length; 

for (int i = 0; i < N; i++) 

{ // 将 a[i] 和 a[i,.N-1] 中 任意 一 个 元 素 交 换 
int r = i + StdRandom.uniform(N-i); 
double temp = a[i]; 
ari] = a[r]; 

a[r] = temp; 


随机 将 double 数组 中 的 元 素 排序 ( 请 见 
练习 1.1.36) 


1.1.7.4 ”你 自己 编写 的 库 
你 应 该 将 自己 编写 的 每 一 个 程序 都 当做 一 个 日 后 可 以 重用 的 库 。 
口 编写 用 例 ， 在 实现 中 将 计算 过 程 分 解 成 可 控 的 部 分 。 
口 明确 静态 方法 库 和 与 之 对 应 的 API ( 或 者 多 个 库 的 多 个 API) 。 
口 实现 API 和 一 个 能 够 对 方法 进行 独立 测试 的 main() 函数 。 

这 种 方法 不 仅 能 帮助 你 实现 可 重用 的 代码 ， 而 且 能 够 教会 你 如 何 运用 模块 化 编程 来 解决 一 个 复 [31 
杂 的 问题 。 32 
API 的 目的 是 将 调用 和 实现 分 离 : 除了 API 中 给 出 的 信息 ,调用 者 不 需要 知道 实现 的 其 他 细节 ， 

而 实现 也 不 应 考虑 特殊 的 应 用 场景 。API 使 我 们 能 够 广泛 地 重用 那些 为 各 种 目的 独立 开发 的 代码 。 

没有 任何 一 个 Java 库 能 够 包含 我 们 在 程序 中 可 能 用 到 的 所 有 方法 ， 因 此 这 种 能 力 对 于 编写 复杂 的 应 

用 程序 特别 重要 。 相 应 地 ， 程 序 员 也 可 以 将 API 看 做 调用 和 实现 之 间 的 一 份 契约 ， 它 详细 说 明了 每 

个 方法 的 作用 。 实 现 的 目标 就 是 能 够 遵守 这 份 契 约 。 一 般 来 说 ， 做 到 这 一 点 有 很 多 种 方法 ， 而 且 将 
调用 者 的 代码 和 实现 的 代码 分 离 使 我 们 可 以 将 老 算法 替换 为 更 新 更 好 的 实现 。 在 学 习 算法 的 过 程 中 ， 

这 也 使 我 们 能 够 感受 到 算法 的 改进 所 带 来 的 影响 。 33 
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1.1.8 字符 串 

字符 串 是 由 一 串 字符 ( char 类 型 的 值 ) 组 成 的 。 一 个 String 类 型 的 字面 量 包括 一 对 双 引号 和 
其 中 的 字符 , 比如 "He110，Wor1d"。String 类 型 是 Java 的 一 个 数据 类 型 , 但 并 不 是 原始 数据 类 型 。 
我 们 现在 就 讨论 String 类 型 是 因为 它 非常 基础 ， 几 乎 所 有 Java 程序 都 会 用 到 它 。 
1.1.8.1 字符 串 拼接 

和 各 种 原始 数据 类 型 一 样 ，Java 内 置 了 一 个 串联 String 类 型 字符 串 的 运算 符 (+ ) 。 表 1.1.11 
是 对 表 1.1.2 的 补充 。 拼 接 两 个 String 类 型 的 字符 串 将 得 到 一 个 新 的 String 值 ， 其 中 第 一 个 字符 
串 在 前 ， 第 二 个 字符 串 在 后 。 


表 1.1.11 Java 的 String 数据 类 型 











类 型 值 域 举 例 运算 符 玉碎 潮 
String - 串 字 符 "AB™ + (拼接 ) 
"Hello”" 
本 i 1+2 
i 
1.1.8.2 ”类 型 转换 


字符 串 的 两 个 主要 用 途 分 别 是 将 用 户 从 键盘 输入 的 内 容 转换 成 相应 数据 类 型 的 值 以 及 将 各 种 数 
据 类 型 的 值 转化 成 能 够 在 屏幕 上 显示 的 内 容 。Java 的 String 类 型 为 这 些 操作 内 置 了 相应 的 方法 ， 
而 且 Integer 和 Double 库 还 包含 了 分 别 和 String 类 型 相互 转化 的 静态 方法 ( 见 表 1.1.12 ) 。 
表 1.1.12 String 值 和 数字 之 间 相 互 转换 的 API 


public class Integer 











Static int parseInt(String s) 将 字符 串 s 转换 为 整数 

static String toString(int i) 将 整数 i 转换 为 字符 趾 
public class Double 

static double parseDouble(String s) 将 字符 串 s 转换 为 浮 点 数 

static String toString(double x) 将 浮 点 数 x 转换 为 字符 趾 
1.1.8.3 自动 转换 


我 们 很 少 明确 使 用 刚才 提 到 的 toString() 方法 ， 因 为 Java 在 连接 字符 串 的 时 候 会 自动 将 任 
意 数据 类 型 的 值 转换 为 字符 串 : 如果 加 号 (+ ) 的 一 个 参数 是 字符 串 ， 那 么 Java 会 自动 将 其 他 参 
数 都 转换 为 字符 串 〈 如 果 它 们 不 是 的 话 ) 。 除 了 像 "The square root of 2.0 is " + Math. 
sqrt(2.0) 这 样 的 使 用 方式 之 外 ， 这 种 机 制 也 使 我 们 能 够 通过 一 个 空 字符 串 "" 将 任意 数据 类 型 的 
值 转换 为 字符 串 值 。 
1.1.8.4 ”命令 行 参数 

在 Java 中 字符 串 的 一 个 重要 的 用 途 就 是 使 程序 能 够 接收 到 从 命令 行 传递 来 的 信息 。 这 种 机 制 很 
简单 。 当 你 输入 命令 java 和 一 个 库 名 以 及 一 系列 字符 串 之 后 ，Java 系统 会 调用 库 的 main() 方法 
并 将 那 一 系列 字符 事变 成 一 个 数组 作为 参数 传递 给 它 。 例 如 ，BinarySearch 的 main() 方法 需要 一 
个 命令 行 参 数 ， 因 此 系统 会 创建 一 个 大 小 为 1 的 数组 。 程 序 用 这 个 值 ， 也 就 是 args[0] ， 来 获取 白 
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名 单 文件 的 文件 名 并 将 其 作为 StdIn .readIntsC 的 参数 。 另 一 种 在 我 们 的 代码 中 常见 的 用 法 是 当 
命令 行 参数 表示 的 是 数字 时 ， 我 们 会 用 parseInt( 和 parseDouble() 方法 将 其 分 别 转换 为 整数 
和 浮 点 数 。 
字符 串 的 用 法 是 现代 程序 中 的 重要 部 分 。 现 在 我 们 还 只 是 用 String 在 外 部 表示 为 字符 串 的 数 
字 和 内 部 表示 为 数字 类 数据 类 型 的 值 进行 转换 。 在 1.2 节 中 我 们 会 看 到 Java 为 我 们 提供 了 非常 丰富 
的 字符 串 操作 ;在 1.4 节 中 我 们 会 分 析 String 类 型 在 Java 内 部 的 表示 方法 ; 在 第 5 章 我 们 会 深入 
学 习 处 理 字符 串 的 各 种 算法 。 这 些 算法 是 本 书 中 最 有 趣 、 最 复杂 也 是 影响 力 最 大 的 一 部 分 算法 。 < 


1.1.9 输入 输出 


我 们 的 标准 输入 、 输 出 和 绘图 库 的 作用 是 建立 一 个 Java 程序 和 外 界 交 流 的 简易 模型 。 这 些 库 的 
基础 是 强大 的 Java 标准 库 ， 但 它们 一 般 更 加 复杂 ， 学 习 和 使 用 起 来 都 更 加 困难 。 我 们 先 来 简单 地 了 
解 一 下 这 个 模型 。 

在 我 们 的 模型 中 ，Java 程序 可 以 从 命令 行 参 数 或 者 一 个 名 为 标准 输入 流 的 抽象 字符 流 中 获得 输 
入 ， 并 将 输出 写 人 另 一 个 名 为 标准 输出 流 的 字符 流 中 。 

我 们 需要 考虑 Java 和 操作 系统 之 间 的 接口 ， 因 此 我 
们 要 简要 地 讨论 一 下 大 多 数 操作 系统 和 程序 开发 环境 所 
提供 的 相应 机 制 。 本 书 网 站 上 列 出 了 关于 你 所 使 用 的 系 
统 的 更 多 信息 。 默 认 情况 下 ， 命 令 行 参数 、 标 准 输入 和 
标准 输出 是 和 应 用 程序 绑 定 的 ， 而 应 用 程序 是 由 能 够 接 
受命 令 输入 的 操作 系统 或 是 开发 环境 所 支持 。 我 们 笼统 
地 用 终端 来 指 代 这 个 应 用 程序 提供 的 供 输入 和 显示 的 窗 从 | 
口 。20 世纪 70 年 代 早 期 的 Unix 系统 已 经 证 明 我 们 可 以 。” 支 ffyo 
用 这 个 模型 方便 直接 地 和 程序 以 及 数据 进行 交互 。 我 们 i 
在 经 典 的 模型 中 加 入 了 一 个 标准 绘图 模块 用 来 可 视 化 表 
示 对 数据 的 分 析 ， 如 图 1.1.3 所 示 。 
1.1.9.1 命令 和 参数 

终端 窗口 包含 一 个 提示 符 ， 通 过 它 我 们 能 够 向 操作 系统 输入 命令 和 参数 。 本 书 中 我 们 只 会 用 到 
几 个 命令 , 如 表 1.1.13 所 示 。 我 们 会 经 常 使 用 java 命 令 来 运行 我 们 的 程序 。 我 们 在 1.1.8.4 节 中 提 到 过 ， 
Java 类 都 会 包含 一 个 静态 方法 main()， 它 有 一 个 String 数组 类 型 的 参数 args[] 。 这 个 数组 的 内 
容 就 是 我 们 输入 的 命令 行 参数 ,操作 系统 会 将 它 传递 给 Java。Java 和 操作 系统 都 默认 参数 为 字符 串 。 
如 果 我 们 需要 的 某 个 参数 是 数字 ， 我 们 会 使 用 类 似 Integer .parseInt() 的 方法 将 其 转换 为 适当 的 
数据 类 型 的 值 。 图 1.1.4 是 对 命令 的 分 析 。 


表 1.1.13 操作 系统 常用 命令 





























图 1.1.3 Java 程序 整体 结构 





命 令 参 数 作 用 

javac java 文件 名 编译 Java 程序 

java -class 文件 名 ( 不 需要 扩展 名 ) 运行 Java 程序 
和 命令 行 参数 
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1.1.9.2 标准 输出 

我 们 的 StdOut 库 的 作用 是 支持 标准 输出 。 一 般 
来 说 ， 系 统 会 将 标准 输出 打印 到 终端 窗口 。print() 
方法 会 将 它 的 参数 放 到 标准 输出 中 ; println0 方法 
会 附加 一 个 换行 符 ; printf0 方法 能 够 格式 化 输出 
( 见 1.1.9.3 节 ) 。Java 在 其 System.out 库 中 提供 了 类 
似 的 方法 ， 但 我 们 会 用 StdOut 库 来 统一 处 理 标准 输 
人 和 输出 (并 进行 了 一 些 技术 上 的 改进 ) , 见 表 1.1.4。 








java RandomSeq 5 100.0 200.0 


args[0] 
调用 Java ri 
args[2] 
图 1.1.4 命令 详解 


表 1.1.14 我们 的 标准 输出 库 的 静态 方法 的 API 


public class StdOut 





static void print(String s) 
static void println(String s) 
static void println0O) 


打印 s 
打印 s 并 接 一 个 换行 符 
打印 一 个 换行 符 


static void printf(String f, ...) 
注 ; 其 他 原始 类 型 和 Object 对 象 也 有 对 应 版 本 的 方法 。 


格式 化 输出 


要 使 用 这 些 方法 ， 请 从 本 书 的 网 站 上 将 StdOutjava 下 载 到 你 的 工作 目录 ， 并 像 Stdout.println 
C"He110，Wor1d"); 这 样 在 代码 中 调用 它们 。 左 下 方 的 程序 就 是 一 个 例子 。 


1.1.9.3 格式 化 输出 


在 最 简单 的 情况 下 printf 0 方法 接受 两 个 参数 。 第 一 个 参数 是 一 个 格式 字符 串 ， 描 述 了 第 二 
个 参数 应 该 如 何在 输出 中 被 转换 为 一 个 字符 串 。 最 简单 的 格式 字符 串 的 第 一 个 字符 是 % 并 紧 跟 一 个 


字符 表示 的 转换 代码 。 我 们 最 常 使 用 的 转换 代码 包括 d ( 用 于 Java 整 型 的 十 进 制 数 ) 、f ( 


public class RandomSeq 
{ 


public static void main(String[] args) 

开 // 打印 N 个 (10，hi) 之 间 的 随机 值 
int N = Integer.parseInt(args[0]); 
double lo = Double.parseDouble(args[1]); 
double hi = Double.parseDoubleCargs[2]); 
for (int 1 = 0; 1 < N; i++) 
和 


double x = StdRandom.uniform(1o, hi); 
StdOut.printf("%.2f\n", x); 


StdOut 的 用 例 示例 





ly ) 
和 s (字符 串 ) 。 在 % 和 转换 代码 之 
间 可 以 插入 一 个 整数 来 表示 转换 之 后 
的 值 的 宽度 ， 即 输出 字符 串 的 长 度 。 
默认 情况 下 ， 转 换 后 会 在 字符 串 的 左 
边 添加 空格 以 达到 需要 的 宽度 ， 如 果 
我 们 想 在 右边 加 入 空格 则 应 该 使 用 负 
宽度 ( 如 果 转 换 得 到 的 字符 串 比 设 定 
宽度 要 长 ， 宽 度 会 被 忽略 ) 。 在 宽度 
之 后 我 们 还 可 以 插入 一 个 小 数 点 以 
及 一 个 数值 来 指定 转换 后 的 double 
值 保留 的 小 数位 数 ( 精度 ) 或 是 
String 字符 串 所 截取 的 长 度 。 使 用 
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% java RandomSeq 5 100.0 200.0 
123.43 
153.13 
144.38 
155.18 
104.02 


printfQ 方法 时 需要 记 住 的 最 重要 的 一 点 就 是 ， 格 式 
字符 事 中 的 转换 代码 和 对 应 参数 的 数据 类 型 必须 匹配 。 
也 就 是 说 ，Java 要 求 参 数 的 数据 类 型 和 转换 代码 表示 
的 数据 类 型 必须 相同 。printf() 的 第 一 个 String 字 
符 串 参数 也 可 以 包含 其 他 字符 。 所 有 非 格式 字符 串 的 
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字符 都 会 被 传递 到 输出 之 中 , 而 格式 字符 串 则 会 被 参数 的 值 所 替代 ( 按照 指定 的 方式 转换 为 字符 串 )。 


例如 ， 这 条 语句 : 

StdOut.printf("PI is approximately %.2f\n", Math.PI); 
会 打印 出 : 

PI is approximately 3.14 


可 以 看 到 ， 在 printfQ 中 我 们 需要 明确 地 在 第 一 个 参数 的 末尾 加 上 \n 来 换行 。printf() 函数 
能 够 接受 两 个 或 者 更 多 的 参数 。 在 这 种 情况 下 ， 在 格式 化 字符 串 中 每 个 参数 都 会 有 对 应 的 转换 代 
码 ， 这 些 代码 之 间 可 能 隔 着 其 他 会 被 直接 传递 到 输出 中 的 字符 。 也 可 以 直接 使 用 静态 方法 String. 
format() 来 用 和 printf() 相同 的 参数 得 到 一 个 格式 化 字符 串 而 无 需 打印 它 。 我 们 可 以 用 格式 化 
打印 方便 地 将 实验 数据 输出 为 表格 形式 ( 这 是 它们 在 本 书 中 的 主要 用 途 ) ， 如 表 1.1.15 所 示 。 


表 1.1.15 printf() 的 格式 化 方式 (更 多 选项 请 见 本 书 网 站 


























数据 类 型 。” ”转换 代码 举例 格式 化 字符 串 举例 转换 后 输出 的 字符 串 
int d 512 "512 
f 1595.17" 
double 1595.1680010754388 "1595.1680011" 
1.5952e+03" 
” Hello, World" 
String s "Hello, World" J 
[G3] 
1.1.9.4 “标准 输入 
我 们 的 StdIn 库 从 标准 输入 


public class Average 


流 中 获取 数据 ， 这 些 数据 可 能 为 
空 也 可 能 是 一 系列 由 空白 字符 分 
隔 的 值 ( 空格 、 制 表 符 、 换 行 符 


站 
public static void main(String[] args) 
{ // 取 StdIn 中 所 有 数 的 平均 值 
double sum = 0.0; 


等 ) 。 默 认 状 态 下 系统 会 将 标准 int cnt = 0; 
输出 定向 到 终端 窗口 一 一 你 输入 
的 内 容 就 是 输入 流 ( 由 <ctr1-d> 
或 <ctr1-z> 结束 ， 取 决 于 你 使 
用 的 终端 应 用 程序 ) 。 这 些 值 可 
能 是 String 或 是 Java 的 某 种 原 归 
始 类 型 的 数据 。 标 准 输入 流 最 重 } 
要 的 特点 是 这 些 值 会 在 你 的 程序 
读 取 它们 之 后 消失 。 只 要 程序 读 
取 了 一 个 值 ， 它 就 不 能 回 退 并 再 次 读 取 它 。 这 个 特点 产生 了 一 些 
限制 ,但 它 反 映 了 一 些 输入 设备 的 物理 特性 并 简化 了 对 这 些 设备 
的 抽象 。 有 了 输入 流 模 型 ， 这 个 库 中 的 静态 方法 大 都 是 自 文档 化 
的 (它们 的 签名 即 说 明了 它们 的 用 途 ) 。 右 侧 列 出 了 StdIn 的 一 
个 用 例 。 

表 1.1.16 详细 说 明了 标准 输入 库 中 的 静态 方法 的 API。 





Cnt+t+; 





while (!StdIn.isEmpty(O)) 
{ // 读 取 一 个 数 并 计算 累计 之 和 
Sum += StdIn.readDouble(); 


double avg = sum / cnt; 
StdOut.printf("Average is %.5f\n", avg); 


StdIn 的 用 例 举例 


% java Average 
1.23456 
2.34567 
3.45678 
4.56789 
<ctrl-d> 
Average is 2.90123 
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表 1.1.16 标准 输入 库 中 的 静态 方法 的 API 





Public class StdIn 





static boolean isEmpty(O) 如 果 输 入 流 中 没有 剩余 的 值 则 返回 true， 否 则 返回 false 
static int readInt() 读 取 一 个 int 类 型 的 值 
static double readDouble(O) 读 取 一 个 double 类 型 的 值 
static float readFloatO) 读 取 一 个 float 类 型 的 值 
static long readLong() 读 取 一 个 1ong 类 型 的 值 
static boolean readBoolean() 读 取 一 个 boolean 类 型 的 值 
static char readChar() 读 取 一 个 char 类 型 的 值 
static byte readByte() 读 取 一 个 byte 类 型 的 值 
static String readStringO) 读 取 一 个 String 类 型 的 值 
static boolean hasNextLine() 输入 流 中 是 否 还 有 下 一 行 
static String readLine() 读 取 该 行 的 其 余 内 容 
static String readA11() 读 取 输入 流 中 的 其 余 内 容 


1.1.9.5 重 定向 与 管道 

标准 输入 输出 使 我 们 能 够 利用 许多 操作 系统 都 支持 的 命令 行 的 扩展 功能 。 只 需要 向 启动 程序 的 
命令 中 加 入 一 个 简单 的 提示 符 ， 就 可 以 将 它 的 标准 输出 重 定向 至 一 个 文件 。 文 件 的 内 容 既 可 以 永久 
保存 也 可 以 在 之 后 作为 另 一 个 程序 的 输入 : 

% java RandomSeq 1000 100.0 200.0 > data.txt 

这 条 命令 指明 标准 输出 流 不 是 被 打印 至 终端 窗口 ， 而 是 被 写 入 一 个 叫做 data.txt 的 文件 。 每 次 
调用 Stdout.print(0) 或 是 Stdot.println0) 都 会 向 该 文件 追加 一 段 文本 。 在 这 个 例子 中 , 我 们 
最 后 会 得 到 一 个 含有 1000 个 随机 数 的 文件 。 终 端 窗口 中 不 会 出 现任 何 输出 :它们 都 被 直接 写 人 了 
>” 号 之 后 的 文件 中 。 这 样 我 们 就 能 将 信息 存储 以 备 下 次 使 用 。 请 注意 不 需要 改变 RandomSeq 的 
任何 内 容 一 一 它 使 用 的 是 标准 输出 的 抽象 ， 因 此 它 不 会 因为 我 们 使 用 了 该 抽象 的 另 一 种 不 同 的 实现 
而 受到 影响 。 类 似 ， 我 们 可 以 重 定向 标准 输入 以 使 StdIn 从 文件 而 不 是 终端 应 用 程序 中 读 取 数据 : 

% java Average < data.txt 

这 条 命令 会 从 文件 data.txt 中 读 取 一 系列 数值 并 计算 它们 的 平均 值 。 具 体 来 说 ，“<” 号 是 一 个 
提示 符 ， 它 告诉 操作 系统 读 取 文本 文件 data.txt 作为 输入 流 而 不 是 在 终端 窗口 中 等 待 用 户 的 输入 。 
当 程 序 调用 StdIn. readDouble() 时 ， 操 作 系统 读 取 的 是 文件 中 的 值 。 将 这 些 结合 起 来 ， 将 一 个 程 
序 的 输出 重 定向 为 另 一 个 程序 的 输入 叫做 管道 : 

% java RandomSeq 1000 100.0 200.0 | java Average 

这 条 命令 将 RandomSeq 的 标准 输出 和 Average 的 标准 输入 指定 为 同一 个 流 。 它 的 效果 是 好 像 
在 Average 运行 时 RandomSeq 将 它 生成 的 数字 输入 了 终端 窗口 。 这 种 差别 影响 非常 深远 ， 因 为 它 突 
破 了 我 们 能 够 处 理 的 输入 输出 流 的 长 度 限制 。 例 如 ， 即 使 计算 机 没有 足够 的 空间 来 存储 十 亿 个 数 ， 
我 们 仍然 可 以 将 例子 中 的 1000 换 成 1 000 000 000 ( 当然 我 们 还 是 需要 一 些 时间 来 处 理 它们 ) 。 当 
RandomSeq 调用 StdOut.print1n() 时 ， 它 就 向 输出 流 的 未 尾 添加 了 一 个 字符 串 ， 当 Average 调用 
StdIn.readInt() 时 ， 它 就 从 输入 流 的 开头 删除 了 一 个 字符 串 。 这 些 动作 发 生 的 实际 顺序 取决 于 
操作 系统 : 它 可 能 会 先 运行 RandomSeq 并 产生 一 些 输出 ， 然 后 再 运行 Average， 来 消耗 这 些 输出 ， 
或 者 它 也 可 以 先 运行 Average， 直 到 它 需 要 一 些 输入 然后 再 运行 RandomSeq 来 产生 一 些 输出 。 虽 然 
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最 后 的 结果 都 一 样 ， 但 我 们 的 程序 就 不 。 将 一 个 文件 重 定向 为 标准 输入 
再 需要 担心 这 些 细节 ， 因 为 它们 只 会 和 % java Average < data.txt 























标准 输入 和 标准 输出 的 抽象 打交道 。 Bas er 
图 1.1.5 总 结 了 重 定向 与 管道 的 1 
过 程 。 Average 











1.1.9.6 ”基于 文件 的 输入 输出 
i a 将 标准 输出 重 定向 到 一 个 文件 

Ne 人 Nr java Randomseq 1000 100.0 200.0 > data.txt 

E33 人 品 汪 八 电 F 

中 读 取 一 个 原始 数据 类 型 (或 String RandomSeq 

类 型 ) 的 数组 的 抽象 。 我 们 会 使 用 In Ls data. txt 

库 中 的 readInts()、readDoubles() 标准 输出 

和 readStrings() 以 及 Out 库 中 的 

writeInts()、writeDoubles() 和 将 一 个 程序 的 输出 通过 管道 作为 另 一 个 程序 的 输入 

writeStrings() 方法 ， 参 数 可 以 是 文 。% java RandomSeq 1000 100.0 200.0 | java Average 

件 或 网 页 如 表 1.1.17 所 示 。 例 如 ， 借 此 

我 们 可 以 在 同一 个 程序 中 分 别 使 用 文件 区 

和 标准 输入 达到 两 种 不 同 的 目的 ， 例 如 rn 

BinarySearch。In 和 Out 两 个 库 也 实现 

了 一 些 数 据 类 型 和 它们 的 实例 方法 ， 这 


xR 





























RandomSeq 











使 我 们 能 够 将 多 个 文件 作为 输入 输出 流 图 1.1.5 命令 行 的 重 定向 与 管道 
并 将 网 页 作为 输入 流 ， 我 们 还 会 在 1.2 
节 中 再 次 考察 它们 。 


表 1.1.17 ”我 们 用 于 读 取 和 写 入 数组 的 静态 方法 的 API 





public class In 














Static int[] readInts(String name) 读 取 多 个 int 值 
static double[] readDoubles(String name) 读 取 多 个 double 值 
static String[] readStrings(String name) 读 取 多 个 String 什 
public class Out 
static void write(int[], String name) 写 入 多 个 int 值 
static void write(doule[] a, String name) 写 入 多 个 double 值 
static void write(String[] a, String name) 写 入 多 个 String 什 
注 1: 库 也 支持 其 他 原始 数据 类 型 。 41 











注 2: 库 也 支持 StdIn 和 StdOut (忽略 name 参数 ) 


1.1.9.7 ”标准 绘图 库 〈 基 本 方法 ) 

目前 为 止 , 我们 的 输入 输出 抽象 层 的 重点 只 有 文本 字符 串 。 现 在 我 们 要 介绍 一 个 产生 图 像 输 
出 的 抽象 层 。 这 个 库 的 使 用 非常 简单 并 且 人 允许 我 们 利用 可 视 化 的 方式 处 理 比 文字 丰富 得 多 的 信息 。 
和 我 们 的 标准 输入 输出 一 样 ， 标 准 绘图 抽象 层 实现 在 库 StdDraw 中 ， 可 以 从 本 书 的 网 站 上 下 载 
StdDrawjava 到 你 的 工作 目录 来 使 用 它 。 标 准 绘图 库 很 简单 : 我 们 可 以 将 它 想象 为 一 个 抽象 的 能 够 
在 二 维 画 布 上 夯 出 点 和 直线 的 绘图 设备 。 这 个 设备 能 够 根据 程序 调用 的 StdDraw 中 的 静态 方法 画 出 
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权 








一 些 基本 的 几何 图 形 ， 这 些 方 
法 包括 画 出 点 、 直 线 、 文 本 字 
符 串 、 圆 、 长 方形 和 多 边 形 等 。 
和 标准 输入 输出 中 的 方法 一 
样 ， 这 些 方法 几乎 也 都 是 自 文 
档 化 的 : StdDraw.1ine0) 能 
够 根据 参数 的 坐标 画 出 一 条 连 
接点 ko yo 和 点 (xi,) 的 线段 ， 
StdDraw.point() 能 够 根据 参 
数 坐标 画 出 一 个 以 (x, yy) 为 中 


StdDraw. point (x0, y0); 
StdDraw. line(x1, yl, x2, y2); 


元 
QD 

Gy ed 
00 i 


StdDraw. square(x, y, r); 


StdDraw.circle(x, y, r); 


(x,7) 


double[] x = {x0, x1, x2, x3}; 
double[] y = {y0, y1, y2, y3}; 
StdDraw.polygon(x, y); 


心 的 点 , 等 等 , 如 图 1.1.6 所 示 。 Co) 
几何 图 形 可 以 被 填充 ( 默认 为 GC) 
黑色 ) 。 默 认 的 比例 尺 为 单位 

正方 形 (所 有 的 坐标 均 在 0 和 

1 之 间 ) 。 标 准 的 实现 会 将 画 GO。 人 大风 


布 显示 为 屏幕 上 的 一 个 窗口 ， 
点 和 线 为 黑色 ， 背 景 为 白色 。 图 1.1.6 StdDraw 的 用 法 举例 
表 1.1.18 是 对 标准 绘图 库 中 静态 方法 API 的 汇总 。 


表 1.1.18 标准 绘图 库 的 静态 〈 绘 图 ) 方法 的 API 
一 一 vv 


public class StdDraw 
static void 1ine(double x0，double y0，double xl，double y1) 
static void point(double x, double y) 
static void text(double x, double y, String s) 
static void circle(double x, double y, double r) 
static void filledCircle(double x, double y, double r) 
static void ellipse(double x, double y, double rw, double rh) 
static void filledEllipse(double x, double y, double rw, double rh) 
Static void sqare(double x, double y, double r) 
static void filledsquare(double x, double y, double r) 
static void rectangle(double x, double y, double rw, double rh) 
static void filledRectangle(double x, double y, double rw, double rh) 
polygon(double[] x, double[] y) 
filledPolygon(double[] x, double[] y) 





static void 
static void 


1.1.9.8 标准 绘图 库 〈 控 制 方法 ) 

标准 绘图 库 中 还 包含 一 些 方法 来 改变 画布 的 大 小 和 比例 、 直 线 的 颜色 和 宽度 、 文 本 字体 、 绘 图 
时 间 (用 于 动画 ) 等 。 可 以 使 用 在 StdDraw 中 预定 义 的 BLACK 、BLUE、CYAN、 DARK_GRAY 、GRAY 、 
GREEN、 LIGHT_GRAY、 MAGENTA、 ORANGE、 PINK、 RED、 BOOK_RED、WHITE 和 YELLOW 等 颜色 常数 
作为 setPenColor() 方法 的 参数 ( 可 以 用 StdDraw.RED 这 样 的 方式 调用 它们 ) 。 面 布 窗口 的 菜单 
还 包含 一 个 选项 用 于 将 图 像 保存 为 适 于 在 网 上 传播 的 文件 格式 。 表 1.1.19 总 结 了 StdDraw 中 静态 控 
制 方法 的 API。 
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表 1.1.19 标准 绘图 库 的 静态 〈 控 制 ) 方法 的 API 





public class StdDraw 








static void setXscale(double x0, double x1) 将 x 的 范围 设 为 (xo x) 

static void setYscale(double y0, double y1) 将 ?的 范围 设 为 0%,») 

static void setPenRadius(double r) 将 画笔 的 粗细 半径 设 为 + 

static void setPenColor(Color c) 将 画笔 的 颜色 设 为 c 

static void setFont(Font f) 将 文本 字体 设 为 了 

static void setCanvasSize(int w, int h) 将 画布 窗口 的 宽 和 高 分 别 设 为 w 和 户 

static void clear(Color c) 清空 画布 并 用 颜色 c 将 其 填充 

static void show(int dt) 显示 所 有 图 像 并 暂停 办 毫秒 43 





在 本 书 中 ,我们 会 在 数据 分 析 和 算法 的 可 视 化 中 使 用 StdDraw。 表 1.1.20 是 一 些 例子 ， 我 们 在 
本 书 的 其 他 章节 和 练习 中 还 会 遇 到 更 多 的 例子 。 绘 图 库 也 支持 动画 一 一 当然 ， 这 个 话题 只 能 在 本 书 
的 网 站 上 展开 了 。 44 














表 1.1.20 StdDraw 绘图 举例 


数 据 绘图 的 实现 〈 代 码 片段 ) 结 果 


int N = 100; 

StdDraw. setXscale(0, N); 

StdDraw. setYscale(0, N*N); 7 
StdDraw. setPenRadius(.01); * 


两 数 什 人 Cint 1 = 1; 1 <= Ni i++) 





StdDraw.point(i, 1); 
StdDraw.point(i, i*i); 
StdDraw.point(i, i*Math.10g(1)); 





} 

int N = 50; 

double[] a = new double[N]; 

for (int 1 = 0; i < N; i++) 
a[i] = StdRandom.random(); 

for (int 1 = 0; 1 < N; i++) 

{ 





随机 数组 double x = 1.0*i/N; 


double y = a[i]/2.0; 

double rw = 0.5/N; 

double rh = a[i]/2.0; 

StdDraw.filledRectangle(x, y, rw, rh); 
# 


int N = 50; 

double[] a = new double[N]; 

for (int 1 = 0; i < N; i+#) 
a[i] = StdRandom. random(); 

Arrays. sort(a); 

for (int i = 0; i < N; is+) 

{ 








已 排序 的 随 
机 数组 


double x 
double y 
double rw = 0.5/N; 

double rh = afiJ/2.0; 

StdDraw. filledRectangle(x, y, rw, rh); 


1.0*1/N; 
a[i]/2.0; 
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1.1.10 ”二 分 查找 

我 们 要 学 习 的 第 一 个 Java 程序 的 示例 程序 就 是 著名 、 高 效 并 且 应 用 广泛 的 二 分 查找 算法 ， 如 下 
所 示 。 这 个 例子 将 会 展示 本 书 中 学 习 新 算法 的 基本 方法 。 和 我 们 将 要 学 习 的 所 有 程序 一 样 ， 它 既是 
算法 的 准确 定义 ， 又 是 算法 的 一 个 完整 的 Java 实现 ， 而 且 你 还 能 够 从 本 书 的 网 站 上 下 载 它 。 


二 分 查找 


import java.util.Arrays; 
public class BinarySearch 





public static int rank(int key, int[] a) 
{ // 数组 必须 是 有 序 的 
int lo = 0; 
int hi = a.length - 1; 
while (lo <= hi) 
{ // 被 查找 的 键 要 么 不 存在 ， 要么 必然 存在 于 a[10. .hi] 之 中 
int mid = lo + (hi - 10) / 2; 
if (key < a[mid]) hi = mid - 1; 
else if (key > a[mid]) lo = mid + 1; 
else return mid; 
这 
return -1; 


public static void main(String[] args) 


int[] whitelist = In.readInts(args[0]); 
Arrays. sort (whitelist); 
while (!StdIn.isEmpty()) 
{ // 读 取 键 值 ， 如 果 不 存在 于 白 名 单 中 则 将 其 打印 
int key = StdIn.readInt(); 
if (rank(key, whitelist) < 0) 
StdOut.printin(key); 
} 


} 

这 用 程序 接受 一 个 白 名 单 文件 (一 列 台数 ) % java BinarySearch tinyW.txt < tinyT.txt 
作为 参数 ， 并 会 过 滤 掉 标 准 输入 中 的 所 有 存在 人 . : 
于 白 名 单 中 的 条 目 ， 仅 将 不 在 白 名 单 上 的 整数 99 
打印 到 标准 输出 中 。 它 在 rank 0 静态 方法 中 实 从 
现 了 二 分 查找 算法 并 高 效 地 完成 了 这 个 任务 。 
关于 二 分 查找 算法 的 完整 讨论 ， 包 括 它 的 正确 性 、 性 能 分 析 及 其 应 用 ， 请 见 3.1 节 。 





1.1.10.1 二 分 查找 

我 们 会 在 3.2 节 中 详细 学 习 二 分 查找 算法 ， 但 此 处 先 简单 地 描述 一 下 。 算 法 是 由 静态 方法 
rank() 实现 的 ， 它 接受 一 个 整数 键 和 一 个 已 经 有 序 的 int 数组 作为 参数 。 如 果 该 键 存在 于 数组 中 
则 返回 它 的 索引 ， 否 则 返回 -1。 算 法 使 用 两 个 变量 1o 和 hi， 并 保证 如 果 键 在 数组 中 则 它 一 定 在 
a[1o. .hi] 中 ， 然 后 方法 进入 一 个 循环 ， 不 断 将 数组 的 中 间 键 (索引 为 mid ) 和 被 查找 的 键 比较 。 
如 果 被 查找 的 键 等 于 a[mid] ， 返 回 mid; 否则 算法 就 将 查找 范围 缩小 一 半 ， 如 果 被 查找 的 键 小 于 
a[mid] 就 继续 在 左 半边 查找 ， 如 果 被 查找 的 键 大 于 a[mid] 就 继续 在 右 半边 查找 。 算法 找到 被 查找 
的 键 或 是 查找 范围 为 空 时 该 过 程 结束 。 二 分 查找 之 所 以 快 是 因为 它 只 需 检查 很 少 几 个 条 目 (相对 于 
数组 的 大 小 ) 就 能 够 找到 目标 元 素 ( 或 者 确认 目标 元 素 不 存在 ) 。 在 有 序数 组 中 进行 二 分 查找 的 示 
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例如 图 1.1.7 所 示 。 
1.1.10.2 开发 用 例 

对 于 每 个 算法 的 实现 ， 我 们 都 会 开发 一 个 用 例 mainQ 函数 ， 并 在 书 中 或 是 本 书 的 网 站 上 提供 一 
个 示例 输入 文件 来 帮助 读者 学 习 该 算法 并 检测 它 的 性 能 。 在 这 个 例子 中 ， 这 个 用 例会 从 命令 行 指定 的 
文件 中 读 取 多 个 整数 ， 并 会 打印 出 标准 输入 中 所 有 不 存在 于 该 文件 中 的 整数 。 我 们 使 用 了 图 1.1.8 所 
示 的 几 个 较 小 的 测试 文件 来 展示 它 的 行为 ， 这 些 文件 也 是 图 1.1.7 中 的 跟踪 和 例子 的 基础 。 我 们 会 使 
用 较 大 的 测试 文件 来 模拟 真实 应 用 并 测试 算法 的 性 能 ( 请 见 1.1.10.3 节 ) 。 


对 23 的 命中 查找 
1o 





mid ni 
10 11 12 16 18 23 29 33 48 54 57 68 77 84 98 
1o mid 
10 11 12 16 18 23 29 tinyw.txt tinyT,txt 
To midhi 84 23 
和 全 等 - 妇 48 50 
18 23 29 68 1 
10 99 
对 50 的 未 命中 查找 有 3 
1o mid hi 98 23 
12 98 不 存在 于 
10 11 12 16 18 23 29 33 48 54 57 68 77 84 98 E 
1o mid hi a 站 Ar txt 
57 10 
48 54 57 68 77 84 98 
To midhi Ee ed 
i 33 77) 
48 54 57 场 py 
To midhi 姓 条 
4 11 98 
4 29 77 
hi lo 7 
14 68 
4 
图 1.1.8 为 BinarySearch 的 测试 用 例 | 4 
1.1.7 有 序数 组 中 的 二 分 查找 准备 的 小 型 测试 文件 47 











1.1.10.3 和 白 名单 过 滤 

如 果 可 能 ， 我 们 的 测试 用 例 都 会 通过 模拟 实际 情况 来 展示 当前 算法 的 必要 性 。 这 里 该 过 程 被 称 
为 白 名 单 过 滤 。 具 体 来 说 ， 可 以 想象 一 家 信用 卡 公 司 ， 它 需要 检查 客户 的 交易 账号 是 否 有 效 。 为 此 ， 
它 需 要 : 

口 将 客户 的 账号 保存 在 一 个 文件 中 ， 我 们 称 它 为 白 名 单 ; 

口 从 标准 输入 中 得 到 每 笔 交易 的 账号 ; 

口 使 用 这 个 测试 用 例 在 标准 输出 中 打印 所 有 与 任何 客户 无 关 的 账号 ,公司 很 可 能 拒绝 此 类 交易 。 

在 一 家 有 上 百 万 客户 的 大 公司 中 ， 需 要 处 理 数 百 万 甚至 更 多 的 交易 都 是 很 正常 的 。 为 了 模拟 这 
种 情况 ,我 们 在 本 书 的 网 站 上 提供 了 文件 largeW:txt ( 100 万 个 整数 ) 和 largeT.txt ( 1000 万 个 整数 ) 
其 基本 情况 如 图 1.1.9 所 示 。 
1.1.10.4 性 能 

一 个 程序 只 是 可 用 往往 是 不 够 的 。 例 如 ， 以 下 rankQ 的 实现 也 可 以 很 简单 ， 它 会 检查 数组 的 
每 个 元 素 ， 甚 至 都 不 需要 数组 是 有 序 的 : 
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public static int rankCint key, int[] a) Targew.txt largeT.txt 
€ 489910 944443 
for (int i = 0; i < a.length; i++) 18940 293674 
if (a[i] 一 key) return ii 774392 572153 
return -1; 490636 600579 
125544 499569， 
407391 984875 


有 了 这 个 简单 易 慌 的 解决 方案 ， 我 们 为 什 i 
么 还 需要 归并 排序 和 二 分 查找 呢 ? 你 在 完成 练 委 坟 肝 ot 


176914 207807 
习 1.1.38 时 会 看 到 ， 计 算 机 用 rank() 方法 的 217904 138910 
暴力 实现 处 理 大 量 输入 (比如 含有 100 万 个 条 72332 903531 
目的 白 名 单 和 1000 万 条 交易 ) 非常 慢 。 没 有 2 不 存在 于 
i TargeW. txt 
如 二 分 查找 或 者 归并 排序 这 样 的 高 效 算法 ， 解 t 2 
决 大 规模 的 白 名 单 问题 是 不 可 能 的 。 良 好 的 性 100 万 个 int 值 635871， 
能 常常 是 极为 重要 的 ， 因 此 我 们 会 在 1.4 节 中 203380 
为 性 能 研究 做 一 些 铺 执 ， 并 会 分 析 我 们 学 习 的 


所 有 算法 的 性 能 特点 ( 包括 2.2 节 的 归并 排序 
和 3.1 节 中 的 二 分 查找 ) 。 

目前 ， 我 们 在 这 里 粗略 地 勾勒 出 我 们 的 
编程 模型 的 目标 是 ， 确 保 你 能 够 在 计算 机 上 运 pe BinarySearch largeW.txt < largeT.txt 
行 类 似 于 BinarySearch 的 代码 ， 使 用 它 处 理 我 。。 984875 
们 的 测试 数据 并 为 适应 各 种 情况 修改 它 ( 比如 207807 
本 节 练习 中 所 描述 的 一 些 情况 ) 以 完全 理解 它 。 。 “10925 
的 可 应 用 性 。 我 们 的 编程 模型 就 是 设计 用 来 的 
简化 这 些 活动 的 ， 这 对 各 种 算法 的 学 习 至 关 
重要 。 


1.1.11 展望 
在 本 节 中 ， 我 们 描述 了 一 个 精巧 而 完整 的 编程 模型 ， 数 十 年 来 它 一 直 在 ( 并 且 现 在 仍 在 ) 为 广 
大 程序 员 服务 。 但 现代 编程 技术 已 经 更 进一步 。 前 进 的 这 一 步 被 称 为 数据 抽象 ， 有 时 也 被 称 为 面向 
对 象 编程 ， 它 是 我 们 下 一 节 的 主题 。 简 单 地 说 ， 数 据 抽 象 的 主要 思想 是 鼓励 程序 定义 自己 的 数据 类 
型 (一 系列 值 和 对 这 些 值 的 操作 ) ， 而 不 仅仅 是 那些 操作 预定 义 的 数据 类 型 的 静态 方法 。 
面向 对 象 编程 在 最 近 几 十 年 得 到 了 广泛 的 应 用 ， 数 据 抽 象 已 经 成 为 现代 程序 开发 的 核心 。 我 们 
在 本 书 中 “拥抱 ”数据 抽象 的 原因 主要 有 三 。 
口 它 允许 我 们 通过 模块 化 编程 复 用 代码 。 例 如 ， 第 2 章 中 的 排序 算法 和 第 3 章 中 的 二 分 查找 以 
及 其 他 算法 ， 都 允许 调用 者 用 同一 段 代码 处 理 任意 类 型 的 数据 ( 而 不 仅 限于 整数 ) ， 包 括 调 
用 者 自 定义 的 数据 类 型 。 
口 它 使 我 们 可 以 轻易 构造 多 种 所 谓 的 链 式 数据 结构 ， 它 们 比 数组 更 灵活 ， 在 许多 情况 下 都 是 高 
效 算法 的 基础 。 
口 借助 它 我 们 可 以 准确 地 定义 所 面 对 的 算法 问题 。 比 如 1.5 节 中 的 union-find 算法 、2.4 节 中 的 
优先 队列 算法 和 第 3 章 中 的 符号 表 算法 ， 它 们 解决 问题 的 方式 都 是 定义 数据 结构 并 高 效 地 实 
现 它们 的 一 组 操作 。 这 些 问题 都 能 够 用 数据 抽象 很 好 地 解决 。 


1000 万 个 int 值 


3 675 966 个 int 值 





图 1.1.9 为 BinarySearch 测试 用 例 准备 的 大 型 文件 
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尽管 如 此 ， 但 我 们 的 重点 仍然 是 对 算法 的 研究 。 在 了 解 了 这 些 知识 以 后 ， 我 们 将 学 习 面向 对 象 


编程 中 和 我 们 的 使 命 相关 的 另 一 个 重要 特性 。 


图 答 经 


间 


什么 是 Java 的 字 节 码 ? 

它 是 程序 的 一 种 低级 表示 ， 可 以 运行 于 Java 的 虚拟 机 。 将 程序 抽象 为 字 节 码 可 以 保证 Java 程序 员 的 
代码 能 够 运行 在 各 种 设备 之 上 。 

Java 允许 整 型 溢出 并 返回 错误 值 的 做 法 是 错误 的 。 难 道 Java 不 应 该 自动 检查 溢出 吗 ? 

这 个 问题 在 程序 员 中 一 直 是 有 争议 的 。 简 单 的 回答 是 它们 之 所 以 被 称 为 原始 数据 类 型 就 是 因为 缺乏 
此 类 检查 。 避 免 此 类 问题 并 不 需要 很 高 深 的 知识 。 我 们 会 使 用 int 类 型 表示 较 小 的 数 (小 于 10 个 十 
进 制 位 ) 而 使 用 1ong 表示 10 亿 以 上 的 数 。 

Math.abs(-2147483648) 的 返回 值 是 什么 ? 

-2147483648。 这 个 奇怪 的 结果 ( 但 的 确 是 真 的 ) 就 是 整数 溢出 的 典型 例子 。 

如 何 才能 将 一 个 double 变量 初始 化 为 无 穷 大 ? 

可 以 使 用 Java 的 内 置 常数 : Double.POSITIVE_INFINITY 和 Double.NEGATIVE_INFINITY。 

能 够 将 doub1e 类 型 的 值 和 int 类 型 的 值 相互 比较 吗 ? 

不 通过 类 型 转换 是 不 行 的 ， 但 请 记 住 Java 一 般 会 自动 进行 所 需 的 类 型 转换 。 例 如 ， 如 果 x 的 类 型 是 
int 且 值 为 3, 那 么 表达 式 (x<3.1) 的 值 为 true 一 一 Java 会 在 比较 前 将 x 转换 为 double 类 型 ( 因为 3.1 
是 一 个 double 类 型 的 字面 量 ) 。 

如 果 使 用 一 个 变量 前 没有 将 它 初始 化 ， 会 发 生 什么 ? 

如 果 代码 中 存在 任何 可 能 导致 使 用 未 经 初始 化 的 变量 的 执行 路 径 ，Java 都 会 抛 出 一 个 编译 异常 。 

Java 表达 式 1/0 和 1.0/0.0 的 值 是 什么 ? 

第 一 个 表达 式 会 产生 一 个 运行 时 除 零 异常 ( 它 会 终止 程序 ， 因 为 这 个 值 是 未 定义 的 ) ;第 二 个 表达 
式 的 值 是 Infinity ( 无穷大 ) 。 

能 够 使 用 < 和 > 比较 String 变量 吗 ? 

不 行 ， 只 有 原始 数据 类 型 定义 了 这 些 运算 符 。 请 见 1.1.2.3 节 。 

负数 的 除法 和 余数 的 结果 是 什么 ? 

表达 式 a/b 的 商会 向 0 取 整 ; a % b 的 余数 的 定义 是 (a/b)*b + a % b 恒 等 于 a。 例如 -14/3 和 
14/-3 的 商都 是 -4, 但 -14 % 3 是 -2, 而 14 % -3 是 2。 

为 什么 使 用 (a && b 而 非 (a & b) ? 

运算 符 &、| 和 和 ^ 分 别 表示 整数 的 位 逻辑 操作 与 、 或 和 异 或 。 因 此 ，1016 的 值 为 14，10A6 的 值 为 
12。 在 本 书 中 我 们 很 少 ( 偶尔 ) 会 用 到 这 些 运算 符 。&& 和 | | 运算 符 仅 在 独立 的 布尔 表达 式 中 有 效 ， 
原因 是 短路 求 值 法 则 : 表达 式 从 左 向 右 求 值 ， 一 旦 整个 表达 式 的 值 已 知 则 停止 求 值 。 

嵌 套 if 语句 中 的 二 义 性 有 问题 吗 ? 

是 的 。 在 Java 中 ， 以 下 语句 : 


if <exprl> if <expr2> <stmntA> else <stmntB> 
等 价 于 : 


if <exprl> { if <expr2> <stmntA> else <stmntB> } 
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即使 你 想 表达 的 是 : 
if <exprl> { if <expr2> <stmntA> } else <stmntB> 
避免 这 种 “无 主 的 ”else 陷阱 的 最 好 办 法 是 显 式 地 写 明 所 有 大 括号 。 

问 一 个 for 循环 和 它 的 while 形式 有 什么 区 别 ? 

答 ”for 循环 头 部 的 代码 和 for 循环 的 主体 代码 在 同一 个 代码 段 之 中 。 在 一 个 典型 的 for 循环 中 ， 递 
增 变量 一 般 在 循环 结束 之 后 都 是 不 可 用 的 ; 但 在 和 它 等 价 的 while 循环 中 ， 递 增 变量 在 循环 结束 

2 之 后 仍然 是 可 用 的 。 这 个 区 别 常常 是 使 用 while 而 非 for 循环 的 主要 原因 。 

间 有 些 Java 程序 员 用 int a[] 而 不 是 int[] a 来 声明 一 个 数组 。 这 两 者 有 什么 不 同 ? 

答 在 Java 中 ,两 者 等 价 且 都 是 合法 的 。 前 一 种 是 C 语言 中 数组 的 声明 方式 。 后 者 是 Java 提倡 的 方式 ， 
因为 变量 的 类 型 int[] 能 更 清楚 地 说 明 这 是 一 个 整 型 的 数组 。 

问 ”为 什么 数组 的 起 始 索 引 是 0 而 不 是 1? 

答 ”这 个 习惯 来 源 于 机 器 语言 ， 那 时 要 计算 一 个 数组 元 素 的 地 址 需要 将 数组 的 起 始 地 址 加 上 该 元 素 的 索 
引 。 将 起 始 索 引 设 为 1 要 么 会 浪费 数组 的 第 一 个 元 素 的 空间 ， 要 么 会 花费 额外 的 时 间 来 将 索引 减 1。 

问 ”如果 af[] 是 一 个 数组 ， 为 什么 Stdout.printin(a) 打印 出 的 是 一 个 十 六 进 制 的 整数 ， 比 如 @ 
f62373， 而 不 是 数组 中 的 元 素 呢 ? 

答 ” 问 得 好 。 该 方法 打印 出 的 是 这 个 数组 的 地 址 ， 不 幸 的 是 你 一 般 都 不 需要 它 。 

问 我们 为 什么 不 使 用 标准 的 Java 库 来 处 理 输入 和 图 形 ? 

答 ”我 们 的 确 用 到 了 它们 ， 但 我 们 希望 使 用 更 简单 的 抽象 模型 。StdIn 和 StdDraw 背后 的 Java 标准 库 是 
为 实际 生产 设计 的 ， 这 些 库 和 它们 的 API 都 有 些 笨重 。 要 想 知道 它们 真正 的 模样 ， 请 查看 StdInjava 
和 StdDrawjava 的 代码 。 

问 我 的 程序 能 够 重新 读 取 标准 输入 中 的 值 吗 ? 

答 不 行 ， 你 只 有 一 次 机 会 ， 就 好 像 你 不 能 撤销 print1n() 的 结果 一 样 。 

间 ”如 果 我 的 程序 在 标准 输入 为 空 之 后 仍然 尝试 读 取 ， 会 发 生 什么 ? 

答 会 得 到 一 个 错误 。StdIn.isEmpty() 能 够 帮助 你 检查 是 否 还 有 可 用 的 输入 以 避免 这 种 错误 。 

问 ”这 条 出 错 信息 是 什么 意思 ? 
Exception in thread "main" java.lang.NoClassDefFoundError: StdIn 

答 ”你 可 能 忘记 把 StdInjava 文件 放 到 工作 目录 中 去 了 。 

问 在 Java 中 ,一 个 静态 方法 能 够 将 另 一 个 静态 方法 作为 参数 吗 ? 

353」 答 不 行 , 但 问 得 好 ， 因 为 有 很 多 语言 都 能 够 这 么 做 。 


1.1.1 给 出 以 下 表达 式 的 值 : 
a(0+15)/2 
b.2.0e-6 * 100000000.1 
Cc. true & false || true && true 
1.1.2 给 出 以 下 表达 式 的 类 型 和 值 : 
a. (1 + 2.236)/2 
bl+2+3+4.0 
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c.4.1 >= 4 
人 
1.1.3 编写 一 个 程序 ， 从 命令 行 得 到 三 个 整数 参数 。 如 果 它 们 都 相等 则 打印 equa1， 否 则 打印 not 
equal。 
1.1.4 下 列 语句 各 有 什么 问题 (如果 有 的 话 ) ? 
aif (a> bl thenc = 0; 
bifa>b{c=0;} 
cif (a>b) c=0; 
dif (a>b)c=0elseb=0 
1.1.5 编写 一 段 程 序 ， 如 果 double 类 型 的 变量 xX 和 y 都 严格 位 于 0 和 1 之 间 则 打印 true， 否 则 打印 
false, ee 
1.1.6 下 面 这 段 程序 会 打印 出 什么 ? 


intf= 0; 
int g= 1; > 
for Cint i = 0; 1 <= 15; i++) 
{ 
StdOut.print1n(f); 
f=f+9g; 
i ek 


1.1.7 分 别 给 出 以 下 代码 段 打 印 出 的 值 : 
adouble t = 9.0; 
while (Math.abs(t - 9.0/t) > .001) 
t= (9.0/t + t) / 2.0; 
StdOut.printf("%.Sf\n", 人 
b.int sum = 0; 
for (int 1 = 1; i < 1000; i++) 
for (int j = 0; j < 1; j++) 
SumM++; 
Stdout.println(Csum); 


cint sum = 0; 
for (int i = 1; i < 1000; i *= 2) 
for (Gint j = 0; j < 1000; j++) 
SUMt+; 
StdOut.printin(sum); 


1.1.8 ”下 列 语句 会 打印 出 什么 结果 ?给 出 解释 。 
a System.out.print1n('b'); 
b: System.out.println("b' + "c'); 
c_ System out.printlnC(char) Ca + 4)); 
1.1.9 编写 一 段 代 码 ， 将 一 个 正 整数 N 用 二 进 制 表示 并 转换 为 一 个 String 类 型 的 值 s。 
解答 : Java 有 一 个 内 置 方 法 Integer.toginaryString(N) 专门 完成 这 个 任务 ， 但 该 题 的 目的 就 
是 给 出 这 个 方法 的 其 他 实现 方法 。 下 面 就 是 一 个 特别 简洁 的 答案 : _ 





String s = 
for.Cintn=N;n> 0; n /2) 
Ss 
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1.1.11 


1.1.12 


1.1.13 
1.1.14 
1.1.15 


1.1.16 


Er 


1.1.18 


1.1.19 





= 0; i < 10; i++) 

解 乱世 没有 用 hen 为 a[] 分 配 内 存 。 这 眉 代 码 会 产生 一 个 variable a fiight not have 
been initialized 的 编译 错误 。 

编写 一 段 代码 ， 打 印 出 一 个 二 维 布尔 数组 的 内 容 。 其 中 ， 使 用 * 表示 真 ， 空 格 表示 假 。 打 印 出 
行 号 和 列 号 。 

以 下 代码 也 会 打印 出 什么 结果 ? 


int[] a = new int[10]; 


for Cint i = 0; 1< 10; 14+) 
ali] = 9 -i; 

for (int i = 0; 1 < 10; i++) 
a[i] .= a[a[i]]; 

for (int i = 0; i < 10; i++) 
System.out. print1n(i); 


编写 一 段 代 码 ， 打 印 出 一 个 M 行 NN 列 的 二 维 数组 的 转 置 《 交 换行 和 列 ) 。 

编写 一 个 静态 方法 190 〇 , 接受 一 个 整 型 参数 N, 返回 不 大 于 logsN 的 最 大 整数 。 不 要 使 用 Math 库 。 
编写 一 个 静态 方法 histogram() ， 接 受 一 个 整 型 数组 a[] 和 一 个 整数 M 为 参数 并 返回 一 个 大 小 
为 M 的 数组 ,其 中 第 i 个 元 素 的 值 为 整数 i 在 参数 数组 中 出 现 的 次 数 ,如 果 a[] 中 的 值 均 在 0 到 M-1 
之 间 ， 返 回 数组 中 所 有 元 素 之 和 应 该 和 a. length 相等 。 

给 出 exR1(6) 的 返回 值 : 

public static String exRlCint n) 


if (n <= 0) return "" 
return exR1(n-3) + Nn + exRlCn-2) + ni 


找 出 以 下 递归 函数 的 问题 : 

public static String exR2Cint n) 

尖 
String s = exR2(n-3) + n + exR2(n-2) + ni 
if Cn <= 0) return ""; 
return s; 


答 : 这 段 代码 中 的 基础 情况 永远 不 会 被 访问 。 调 用 exR2(3) 会 产生 调用 exR2C0) 、exR2(-3) 和 
exR2(-6) ， 循 环 往复 直到 发 生 StackOverflowError。 we 
请 看 以 下 递归 函数 ， 
public static int mystery(int a, int b) 
{ 
if (b == 0) return 0; 
if (b % 2 == 0) return mystery(ata, b/2); 
return mystery(ata, b/2) + ai i 
禾 


mystery(2，25) 和 mystery(3，11) 的 返回 值 是 多 少 ? 给 定 正 整 数 a 和 b，mystery(a,b) 
计算 的 结果 是 什么 ?将 代码 中 的 + 替换 为 * 并 将 return 0 改 为 return 1， 然 后 回答 相同 
的 问题 。 

在 计算 机 上 运行 以 下 程序 : 
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public class Fibonacci 


public static long FCint N) 
€ 和 3 
2 if (N== 0) return 0; 人 
-if (N = 1) return 1; 
return F(N-- -9 + FON-2); 


public static void .main(string 和 args) 


for (int N= 0; N < 100; N++)- 
StdOut.printIn(N + " "+ FON)); 
} } - he - [7 
计算 机 用 这 段 程序 在 一 个 小 时 之 内 能 够 得 到 FCN) 结果 的 最 大 N 值 是 多 少 ? 开发 FCN) 的 一 
个 更 好 的 实现 ， 用 数组 保存 已 经 计算 过 的 值 。 
1.1.20 编写 一 个 递归 的 静态 方法 计算 1nCN!) 的 值 。 
1.1.21 编写 一 段 程序 ， 从 标准 输入 按 行 读 取 数 据 ， 其 中 每 行 都 包含 一 个 名 字 和 两 个 整数 。 然 后 用 
printf() 打印 一 张 表格 ， 每 行 的 若干 列 数据 包括 名 字 、 两 个 整数 和 第 一 个 整数 除 以 第 二 个 整数 
的 结果 ， 精 确 到 小 数 点 后 三 位 。 可 以 用 这 种 程序 将 棒球 球 手 的 击 球 命中 率 或 者 学 生 的 考试 分 数 
制 成 表格 。 
1.1.22 使 用 1.1.6.4 节 中 的 rankQ 递归 方法 重新 实现 BinarySearch 并 跟踪 该 方法 的 调用 。 每 当 该 方法 
被 调用 时 ， 打 印 出 它 的 参数 1o 和 hi 并 按照 递归 的 深度 缩 进 。 提 示 ; 为 递归 方法 添加 一 个 参数 
来 保存 递归 的 深度 。 
1.1.23 为 BinarySearch 的 测试 用 例 添加 一 个 参数 :+ 打印 出 标准 输入 中 不 在 白 名 单 上 的 值 ; -， 则 打 
印 出 标准 输入 中 在 白 名单 上 的 值 。 
1.1.24 ”给 出 使 用 欧 几 里 德 算法 计算 105 和 24 的 最 大 公约 数 的 过 程 中 得 到 的 一 系列 p 和 9 的 值 。 扩 展 该 
算法 中 的 代码 得 到 一 个 程序 Euclid， 从 命令 行 接受 两 个 参数 ， 计 算 它们 的 最 大 公约 数 并 打印 出 每 
次 调用 递归 方法 时 的 两 个 参数 。 使 用 你 的 程序 计算 1 111 111 和 1 234 567 的 最 大 公约 数 。 
1.1.25 ”使 用 数学 归纳 法 证 明 欧 几 里 德 算 法 能 够 计算 任意 一 对 非 负 整数 p 和 4 的 最 大 公约 数 。 58 

















图 提高 是 
1.1.26 将 三 个 数字 排序 。 假 设 a、b、c 和 上 都 是 同一 种 原始 数字 类 型 的 变量 。 证 明 以 下 代码 能 够 将 a、 


b、c 按照 升序 排列 : 
if (a>b) {t=a; es b=t;} 
if (a > c) {t= wT 
村 CO tb es c=t;} 
1.1.27 三 项 分 布 。 估 计 用 以 下 代码 计算 binomia1(100，50) 将 会 产生 的 递归 调用 次 数 : 
public static double binomial(int N, int k, double p) 
{ 








if (N == 0 && k == 0) return 1.0; and if (N < 0 || k < 0) return 0.0; 
return (1.0 - p)*binomial(N-1, k, p) + p*binomial(N-1, k-1); 


将 已 经 计算 过 的 值 保存 在 数组 中 并 给 出 一 个 更 好 的 实现 。 
1.1.28 删除 重复 元 素 。 修改 BinarySearch 类 中 的 测试 用 例 来 删 去 排序 之 后 白 名 单 中 的 所 有 重复 元 素 。 
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1.1.29 
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1.1.33 


1.1.34 
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等 值 键 。 为 BinarySearch 类 添加 一 个 静态 方法 rank(, 它 接受 一 个 键 和 一 个 整 型 有 序数 组 (可 
能 存在 重复 键 ) 作为 参数 并 返回 数组 中 小 于 该 键 的 元 素数 量 ， 以 及 一 个 类 似 的 方法 count() 来 
返回 数组 中 等 于 该 键 的 元 素 的 数量 。 注 意 : 如 果 i 和 j 分 别 是 rank(key,al 和 count(key,a) 
的 返回 值 ， 那 么 a[i. .i+j-1] 就 是 数组 中 所 有 和 key 相等 的 元 素 。 

数组 练习 。 编 写 一 段 程序 ， 创 建 一 个 Nx N 的 布尔 数组 a[] [] 。 其 中 当 i 和 j 互 质 时 ( 没有 相同 
因子 ) ，a[i] [j] 为 true， 否 则 为 false。 

随机 连接 。 编 写 一 段 程序 ， 从 命令 行 接受 一 个 整数 N 和 double 值 p (0 到 1 之 间 ) 作为 参数 ， 
在 一 个 贺 上 画 出 大 小 为 0.05 且 间 距 相等 的 N 个 点 ， 然 后 将 每 对 点 按照 概率 p 用 灰 线 连 接 。 
直方 图 。 假 设 标准 输入 流 中 含有 一 系列 double 值 。 编 写 一 段 程序 ， 从 命令 行 接受 一 个 整数 入 和 
两 个 double 值 1 和 x。 将 (1, 门 分 为 N 段 并 使 用 StdDraw 画 出 输入 流 中 的 值 落 入 每 段 的 数量 的 
直方 图 。 

矩阵 库 。 编 写 一 个 Matrix 库 并 实现 以 下 API: 


public class Matrix 





static double dot(double[] x, double[] y) 向 量 点 乘 
static double[][] mult(double[][] a, double[][] b) 矩阵 和 和 矩阵 之 积 
Static double[][] transpose(double[][] a) 转 置 矩阵 
static double[] mult(double[][] a, double[] x) 矩阵 和 向 量 之 积 
static “double[] mult(double[] y, double[][] a) 向 量 和 矩阵 之 积 


编写 一 个 测试 用 例 ， 从 标准 输入 读 取 和 矩阵 并 测试 所 有 方法 。 

过 滤 。 以 下 哪些 任务 需要 ( 在 数组 中 ， 比 如 ) 保存 标准 输入 中 的 所 有 值 ? 哪些 可 以 被 实现 为 一 
个 过 滤器 且 仅 使 用 固定 数量 的 变量 和 固定 大 小 的 数组 ( 和 N 无 关 ) ? 在 每 个 问题 中 ， 输 入 都 来 
自 于 标准 输入 且 含 有 N 个 0 到 1 的 实数 。 

口 打印 出 最 大 和 最 小 的 数 

口 打印 出 所 有 数 的 中 位 数 

口 打印 出 第 k 小 的 数 , 小 于 100 

口 打印 出 所 有 数 的 平方 和 

口 打印 出 X 个 数 的 平均 值 

口 打印 出 大 于 平均 值 的 数 的 百分比 

口 将 入 个 数 按照 升序 打印 

口 将 N 个 数 按照 随机 顺序 打印 





站 i ga 
和 
模拟 掷 般 子 。 以 下 代码 能 够 计算 每 种 两 个 般 子 之 和 的 准确 概率 分 布 : 
int SIDES = 6; 
double[] dist = new double[2*SIDES+1]; 
for (int 1 = 1; i <= SIDES; i++) 

for (int j = 1; j <= SIDES; j++) 

dist[i+j] += 1.0; 





for (int k = 2; k <= 2*SIDES; k++) 
dist[k] /= 36.0; 


1.1.36 








dist[i] 的 值 就 是 两 个 肯 子 之 和 为 1 的 概率 。 用 实验 模拟 入 次 扩散 子 ， 并 在 计算 两 个 1 到 
6 之 间 的 随机 整数 之 和 时 记录 每 个 值 的 出 现 频率 以 验证 它们 的 概率 。N 要 多 大 才能 够 保证 你 
的 经 验 数据 和 准确 数据 的 吻合 程度 达到 小 数 点 后 三 位 ? 

乱 序 检 查 。 通 过 实验 检查 表 1.1.10 中 的 乱 序 代码 是 否 能 够 产生 预期 的 效果 。 编 写 一 个 程序 
ShuffleTest， 接 受命 令 行 参数 M 和 N， 将 大 小 为 M 的 数组 打 乱 N 次 且 在 每 次 打 乱 之 前 都 将 数组 
重新 初始 化 为 a[i] = ji。 打印 一 个 Mx MM 的 表格 ， 对 于 所 有 的 列 j， 行 i 表示 的 是 i 在 打 乱 后 
落 到 j 的 位 置 的 次 数 。 数 组 中 的 所 有 元 素 的 值 都 应 该 接近 于 N/M。 

糟 磋 的 打 乱 。 假 设 在 我 们 的 乱 序 代码 中 你 选择 的 是 一 个 0 到 N-1 而 非 了 到 N-1 之 间 的 随机 整数 。 
证 明 得 到 的 结果 并 非 均匀 地 分 布 在 N! 种 可 能 性 之 间 。 用 上 一 题 中 的 测试 检验 这 个 版 本 。 

二 分 查找 与 暴力 查找 。 根 据 1.1.10.4 节 给 出 的 暴力 查找 法 编写 一 个 程序 BruteForceSearch， 在 你 
的 计算 机 上 比较 它 和 BinarySearch 处 理 largeWtxt 和 largeT.txt 所 需 的 时 间 。 

随机 匹配 。 编写 一 个 使 用 BinarySearch 的 程序 ， 它 从 命令 行 接受 一 个 整 型 参数 T， 并 会 分 别针 
对 N=10、10'、-10: 和 10? 将 以 下 实验 运行 了 遍 : 生成 两 个 大 小 为 X 的 随机 6 位 正 整数 数组 并 找 
出 同时 存在 于 两 个 数组 中 的 整数 的 数量 。 打 印 一 个 表格 ， 对 于 每 个 N， 给 出 了 次 实验 中 该 数量 
的 平均 值 。 
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1.2 ”数据 抽象 


数据 类 型 指 的 是 一 组 值 和 一 组 对 这 些 值 的 操作 的 集合 。 目 前 ,我 们 已 经 详细 讨论 过 Java 的 原始 
数据 类 型 : 例如 , 原始 数据 类 型 int 的 取 值 范围 是 -27 到 2”-1 之 间 的 整数 , int 的 操作 包括 +、*、- 、 
/、%、< 和 >。 原 则 上 所 有 程序 都 只 需要 使 用 原始 数据 类 型 即 可 ， 但 在 更 高 层次 的 抽象 上 编写 程序 
会 更 加 方便 。 在 本 节 中 ， 我 们 将 重点 学 习 定义 和 使 用 数据 类 型 ， 这 个 过 程 也 被 称 为 数据 抽象 ( 它 是 
对 1.1 节 所 述 的 画 数 抽象 风格 的 补充 ) 。 

Java 编程 的 基础 主要 是 使 用 class 关键 字 构 造 被 称 为 引用 类 型 的 数据 类 型 。 这 种 编程 风格 也 称 
为 面向 对 象 编程 ， 因 为 它 的 核心 概念 是 对 象 ， 即 保存 了 某 个 数据 类 型 的 值 的 实体 。 如 果 只 有 Java 的 
原始 数据 类 型 ， 我 们 的 程序 会 在 很 大 程度 上 被 限制 在 算术 计算 上 ， 但 有 了 引用 类 型 ， 我 们 就 能 编写 
操作 字符 串 、 图 像 、 声 音 以 及 Java 的 标准 库 中 或 者 本 书 的 网 站 上 的 数 百 种 抽象 类 型 的 程序 。 比 各 种 
库 中 预定 义 的 数据 类 型 更 重要 的 是 Java 编程 中 的 数据 类 型 的 种 类 是 无 限 的， 因为 你 能 够 定义 自己 的 
数据 类 型 来 抽象 任意 对 象 。 

抽象 数据 类 型 (ADT ) 是 一 种 能 够 对 使 用 者 隐藏 数据 表示 的 数据 类 型 。 用 Java 类 来 实现 抽象 
数据 类 型 和 用 一 组 静态 方法 实现 一 个 函数 库 并 没有 什么 不 同 。 抽 象 数据 类 型 的 主要 不 同 之 处 在 于 它 
将 数据 和 函数 的 实现 关联 ， 并 将 数据 的 表示 方式 隐藏 起 来 。 在 使 用 抽象 数据 类 型 时 ， 我 们 的 注意 力 
集中 在 API 描述 的 操作 上 而 不 会 去 关心 数据 的 表示 ; 在 实现 抽象 数据 类 型 时 ， 我 们 的 注意 力 集中 在 
数据 本 身 并 将 实现 对 该 数据 的 各 种 操作 。 

抽象 数据 类 型 之 所 以 重要 是 因为 在 程序 设计 上 它们 支持 封装 。 在 本 书 中 ， 我 们 将 通过 它们 : 

口 以 适用 于 各 种 用 途 的 API 形式 准确 地 定义 问题 ; 

口 用 API 的 实现 描述 算法 和 数据 结构 。 

我 们 研究 同一 个 问题 的 不 同 算法 的 主要 原因 在 于 它们 的 性 能 特点 不 同 。 抽 象 数据 类 型 正 适合 于 
对 算法 的 这 种 研究 ， 因 为 它 确保 我 们 可 以 随时 将 算法 性 能 的 知识 应 用 于 实践 中 ， 可 以 在 不 修改 任何 
用 例 代码 的 情况 下 用 一 种 算法 替换 另 一 种 算法 并 改进 所 有 用 例 的 性 能 。 


1.2.1 使 用 抽象 数据 类 型 

要 使 用 一 种 数据 类 型 并 不 一 定 非得 知道 它 是 如 何 实现 的 ， 所 以 我 们 首先 来 编写 一 个 使 用 一 种 名 
为 Counter (计数 器 ) 的 简单 数据 类 型 的 程序 。 它 的 值 是 一 个 名 称 和 一 个 非 负 整数 ， 它 的 操作 有 创 
建 对 象 并 初始 化 为 0、 当 前 值 加 1 和 获取 当前 值 。 这 个 抽象 对 象 在 许多 场景 中 都 会 用 到 。 例 如 ， 这 
样 一 个 数据 类 型 可 以 用 于 电子 记 票 软件 ， 它 能 够 保证 投票 者 所 能 进行 的 唯一 操作 就 是 将 他 选择 的 候 
选 人 的 计数 器 加 一 。 我 们 也 可 以 在 分 析 算 法 性 能 时 使 用 Counter 来 记录 基本 操作 的 调用 次 数 。 要 使 
用 Counter 对 象 ， 首 先 需 要 了 解 应 该 如 何 定义 数据 类 型 的 操作 ， 以 及 在 Java 语言 中 应 该 如 何 创建 
和 使 用 某 个 数据 类 型 的 对 象 。 这 些 机 制 在 现代 编程 中 都 非常 重要 ， 我 们 在 全 书 中 都 会 用 到 它们 ， 因 
此 请 仔细 学 习 我 们 的 第 一 个 例子 。 
1.2.1.1 抽象 数据 类 型 的 API 

我 们 使 用 应 用 程序 编程 接口 (API ) 来 说 明 抽象 数据 类 型 的 行为 。 它 将 列 出 所 有 构造 函数 和 实 
例 方 法 〈 即 操作 ) 并 简要 描述 它们 的 功用 ,如 表 1.2.1 中 Counter 的 API 所 示 。 

尽管 数据 类 型 定义 的 基础 是 一 组 值 的 集合 ， 但 在 API 可 见 的 仅 是 对 它们 的 操作 ， 而 非 它们 的 意 
义 。 因 此， 抽象 数据 类 型 的 定义 和 静态 方法 库 (请 见 1.1.6.3 节 ) 之 间 有 许多 共同 之 处 : 

口 两 者 的 实现 均 为 Java 类 ; 
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口 实例 方法 可 能 接受 0 个 或 多 个 指定 类 型 的 参数 ， 由 括号 表示 并 由 去 号 分 隔 ; 
口 它们 可 能 会 返回 一 个 指定 类 型 的 值 ， 也 可 能 不 会 (用 void 表示 ) 。 
一 当然 ,它们 也 有 三 个 显著 的 不 同 : 
-， API 中 可 能 会 出 现 若干 个 名 称 和 类 名 相同 且 没 有 返回 值 的 函数 。 这 些 特殊 的 函数 被 称 为 构造 
函数 。 在 本 例 中 ，Counter 对 象 有 一 个 接受 一 个 String 参数 的 构造 函 数 。 人 5 
口 实例 方法 不 需要 static 关键 字 。 它 们 不 是 静态 方法 一 它们 的 目的 就 是 操作 该 数据 类 型 中 
的 值 。 
口 某 些 实例 方法 的 存在 是 为 了 尊重 Java 的 习惯 一 我 们 将 此 类 方法 称 为 继承 的 方法 并 在 API 
中 将 它们 显示 为 灰色 。 














表 1.2.1 计数 器 的 API 


public class Counter 





Counter(String id) 创建 一 个 名 为 id 的 计数 器 
void ‘ incrementO) 将 计数 器 的 值 加 
int tallyO 该 对 象 创建 之 后 计数 器 被 加 1 的 次 数 
String toStringO 对 象 的 字符 囊 表示 


和 静态 方法 库 的 API 一样， 抽象 数据 类 型 的 API 也 是 和 用 例 之 间 的 一 份 契约 ， 因 此 它 是 开 
发 任何 用 例 代 码 以 及 实现 任意 数据 类 型 的 起 点 。 在 本 例 中 ， 这 份 API 告诉 我 们 可 以 通过 构造 函数 
Counter()、 实 例 方法 increment() 和 tally()， 以 及 继承 的 toString() 方法 使 用 Counter 类 
型 的 对 象 。 
1.2.1.2 ”继承 的 方法 

根据 Java 的 约定 ， 任 意 数 据 类 型 都 能 通过 在 API 中 包含 特定 的 方法 从 Java 的 内 在 机 制 中 获 
益 。 例 如 ，Java 中 的 所 有 数据 类 型 都 会 继承 toString() 方法 来 返回 用 String 表示 的 该 类 型 的 
值 。Java 会 在 用 + 运算 符 将 任意 数据 类 型 的 值 和 String 值 连接 时 调用 该 方法 。 该 方法 的 默认 实 
现 并 不 实用 ( 它 会 返回 用 字符 串 表 示 的 该 数据 类 型 值 的 内 存 地 址 ) ， 因 此 我 们 常常 会 提供 实现 来 
重 载 默认 实现 ， 并 在 此 时 在 API 中 加 上 toStringQ 〇 方法 。 此 类 方法 的 例子 还 包括 equals() 、 
compareTo() 和 hashCode() (请 见 1.2.5.5 节 ) 。 
1.2.1.3， 用 例 代 码 

和 基于 静态 方法 的 模块 化 编程 一 样 ，API 多 许 我 们 在 不 知道 实现 细节 的 情况 下 编写 调用 它 的 代 
码 (以 及 在 不 知道 任何 用 例 代码 的 情况 下 编写 实现 代码 ) 。1.1.7 节 介 绍 的 将 程序 组 织 为 独立 模块 的 
机 制 可 以 应 用 于 所 有 的 Java 类, 因此 它 对 基于 抽象 数据 类 型 的 模块 化 编程 与 对 静态 函数 库 一 样 有 效 。 
这 样 ， 只 要 抽象 数据 类 型 的 源 代 码 java 文件 和 我 们 的 程序 文件 在 同一 个 目录 下 ， 或 是 在 标准 Java 
库 中， 或 是 可 以 通过 import 语句 访问 ， 或 是 可 以 通过 本 书 网 站 上 介绍 的 classpath 机 制 之 一 访问 ， 
该 程序 就 能 够 使 用 这 个 抽象 数据 类 型 ， 模 块 化 编程 的 所 有 优势 就 都 能 够 继续 发 挥 。 通 过 将 实现 某 种 
数据 类 型 的 全 部 代码 封装 在 一 个 Java 类 中 ， 我 们 可 以 将 用 例 代码 推 向 更 高 的 抽象 层次 。 在 用 例 代码 
中 ， 你 需要 声明 变量 、 创 建 对 象 来 保存 数据 类 型 的 值 并 元 许 通过 实例 方法 来 操作 它们 。 尽 管 你 也 会 
注意 到 它们 的 一 些 相似 之 处 ， 但 这 种 方式 和 原始 数据 类 型 的 使 用 方式 非常 不 同 。 6 

- 1.2.1.4 对 象 
一 般 来 说 ， 可 以 声明 一 个 变量 heads 并 将 它 通过 以 下 代码 和 Counter 类 型 的 数据 关联 起 来 : 


Counter heads; 
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但 如 何 为 它 赋值 或 是 对 它 进行 操作 昵 ?这 个 问题 的 答 。 ”一 counter 对 象 
案 涉 及 数据 抽象 中 的 一 个 基础 概念 : 对 条 是 能 够 承载 数据 类 一 
型 的 值 的 实体 。 所 有 对 象 都 有 三 大 重要 特性 ， 状态、 标识 " 
和 行为 。 对 象 的 状态 即 数据 类 型 中 的 值 。 对 象 的 标识 份 能 够 heads -3 I 
将 一 个 对 象 区 别 于 另 一 个 对 象 。 可 以 认为 对 象 的 标识 就 是 
它 在 内 存 中 的 位 置 。 对 象 的 行为 就 是 数据 类 型 的 操作 。 数 据 Bn 
类 型 的 实现 的 唯一 职责 就 是 维护 一 个 对 象 的 身份 ， 这 样 用 例 
代码 在 使 用 数据 类 型 时 只 需 遵守 描述 对 象 行为 的 APL 即 可 ， 
而 无 需 关 注 对 象 状态 的 表示 方法 。 对 象 的 状态 可 以 为 用 例 代 
码 提供 信息 ， 或 是 产生 菜 种 副作用 ， 或 是 被 数据 类 型 的 操作 
所 改变 。 但 数据 类 型 的 值 的 表示 细节 和 用 例 代码 是 无 关 的 。 
引用 是 访问 对 象 的 一 种 方式 。Java 使 用 术语 引用 类 型 以 示 
和 原始 数据 类 型 ( 变量 和 值 相关 联 ) 的 区 别 。 不 同 的 Java 
实现 中 引用 的 实现 细节 也 各 不 相同 ， 但 可 以 认为 引用 就 是 内 


两 个 Counter 对 象 


heads 


存 地 址 ， 如 图 1.2.1 所 示 ( 简洁 起 见 ， 图 中 的 内 存 地 址 为 三 tails 
位 数 ) 。 
1.2.1.5 创建 对 象 
每 种 数据 类 型 中 的 值 都 存储 于 一 个 对 象 中 。 要 创建 (或 
实例 化 ) 一 个 对 象 ， 我 们 用 关键 字 new 并 紧 跟 类 名 以 及 () 


Mp | 

Re 
tai1s 的 标识 

(或 在 括号 中 指定 一 系列 的 参数 ， 如 果 构 造 函 数 需 要 的 话 ) 

来 触发 它 的 构造 函数 。 构 造 函 数 没有 返回 值 ， 因 为 它 总 是 返 .Ey 

回 它 的 数据 类 型 的 对 象 的 引用 。 每 当 用 例 调用 了 new() ， 系 

统 都 会 [| 

口 为 新 的 对 象 分 配 内 存 空间 ; 图 1.2.1 对 象 的 表示 

口 调用 构造 函数 初始 化 对 象 中 的 值 ; 

口 返回 该 对 象 的 一 个 引用 。 

在 用 例 代 码 中 ， 我 们 一 般 都 会 在 一 条 声明 语句 中 创建 一 个 对 象 并 通过 将 它 和 一 个 变量 关联 来 
初始 化 该 变量 ， 和 使 用 原始 数据 类 型 时 一 样 。 和 原始 数据 类 型 不 同 的 是 ， 变 量 关联 的 是 指向 对 象 的 
引用 而 并 非 数 据 类 型 的 值 本 身 。 我 们 可 以 用 同一 个 类 创建 无 数 对 象 一 一 每 个 对 象 都 有 自己 的 标识 ， 
且 所 存储 的 值 和 另 一 个 相同 类 型 的 对 象 可 以 相同 也 可 以 不 同 。 例 如 ， 以 下 代码 创建 了 两 个 不 同 的 
Counter 对 象 : 





Counter heads = new Counter("hea 
Counter tails = new Counter("tails"); 


抽象 数据 类 型 向 用 例 隐藏 了 值 的 表示 细节 。 可 以 假定 每 个 Counter 对 象 中 的 值 是 一 个 String 
类 型 的 名 称 和 一 个 int 计数 器 ， 但 不 能 编写 依赖 于 任何 特定 表示 方法 的 代码 ( 即使 知道 假定 是 否 正 





将 变量 和 对 象 的 引 确 一 一 也 许 计数 器 是 一 个 1ong 值 呢 ) 对 象 
用 关联 的 声明 语句 nl 的 创建 过 程 如 图 1.2.2 所 示 。 
Counter heads | - [new CounterC "heads™); 1 

















图 1.2.2 创建 对 象 值 ， 因 此 Java 语言 提供 了 一 种 特别 的 机 制 来 
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触发 实例 方法 , 它 突 出 了 实例 方法 和 对 象 之 间 的 联系 。 
具体 来 说 ， 我 们 调用 一 个 实例 方法 的 方式 是 先 写 出 对 
象 的 变量 名 ， 紧 接着 是 一 个 句点 ， 然 后 是 实例 方法 的 
名 称 ， 之 后 是 0 个 或 多 个 在 括号 中 并 由 逗号 分 隔 的 参 
数 。 实 例 方法 可 能 会 改变 数据 类 型 中 的 值 ， 也 可 能 只 触发 构造 函数 (创建 一 个 对 象 ) 


ont 


通过 new 关 键 字 〈 触 发 构造 函数 ) 
heads =| new Counter ("heads"); 



































是 访问 数据 类 型 中 的 值 。 实 例 方法 拥有 我 们 在 1.1.6.3 。 通过 语句 《没有 返回 值 》 

节 讨论 过 的 静态 方法 的 所 有 性 质 一 参数 按 值 传递 re 
方法 名 可 以 被 重 载 ， 方 法 可 以 有 返回 值 ， 它 们 也 许 还 。 对象 名 地 _ 个 基因 
会 产生 一 些 副作用 。 但 它们 还 有 一 个 特别 的 性 质 : 方 法 并 改变 对 象 的 值 


法 的 每 次 能 发 都 是 和 一 个 对 象 相关 的 。 例如， 以 下 代 。 通过 表达 式 
码 调用 了 实例 方法 increment() 来 操作 Counter 对 [Theags].tatiyO|- tails.tallyO 


象 heads ( 在 这 里 该 操作 会 将 计数 器 的 值 加 1) : _ N 
对 象 名 触发 一 个 实例 广 


法 并 访问 对 象 的 值 
而 以 下 代码 会 调用 实例 方法 ta11yQ 两 次 ， 第 一 通过 自动 类 型 转换 (toStringC) 


次 操作 的 是 Counter 对 象 heads， 第 二 次 是 Counter y 
对 象 fai1s (这 里 该 操作 会 返回 计数 器 的 int 值 ) : Se Te Re 
1 触发 heads. toString() 
heads.tally() - tails.tallyO; 
以 上 示例 的 调用 过 程 见 图 1.2.3。 图 123 触发 实例 方法 的 各 种 方式 
正如 这 些 例子 所 示 , 在 用 例 中 实例 方法 和 静态 方法 的 调用 方式 完全 相同 
方法 ) 也 可 以 通过 表达 式 (有 返回 值 的 方法 ) 。 静 态 方法 的 主要 作用 是 实现 函数 ; 非 静态 (实例 ) [号 
方法 的 主要 作用 是 实现 数据 类 型 的 操作 。 两 者 都 可 能 出 现在 用 例 代码 中 ,但 很 容易 就 可 以 区 分 它们 ， 
因为 静态 方 法 调用 的 开头 是 类 名 ( 按 习惯 为 大 写 ) ;而 非 静态 方法 调用 的 开头 总 是 对 象 名 ( 按 习 懒 
为 小 写 ) 。 表 1.2.2 总 结 了 这 些 不 同 之 处 。 


表 1.2.2 实例 方法 与 静态 方法 














heads.increment(); 




















实例 方法 租 态 方法 
举例 heads .increment() Math.sqrt(2.0) 
调用 方式 对 象 名 类 名 

参量 对 象 的 引用 和 方法 的 参数 方法 的 参数 


主要 作用 访问 或 改变 对 象 的 值 计算 返回 值 


1.2.1.7 使 用 对 象 

通过 声明 语句 可 以 将 变量 名 赋 给 对 象 ， 在 代码 中 ,我 们 不 仅 可 以 用 该 变量 创建 对 象 和 调用 实例 
方法 ， 也 可 以 像 使 用 整数 、 浮 点 数 和 其 他 原始 数据 类 型 的 变量 一 样 使 用 它 。 要 开发 某 种 给 定数 据 类 
型 的 用 例 ， 我 们 需要 : 

口 声明 该 类 型 的 变量 ， 以 用 来 引用 对 象 ; 

口 使 用 关键 字 new 触发 能 够 创建 该 类 型 的 对 象 的 一 个 构造 函数 ; 

口 使 用 变量 名 在 语句 或 表达 式 中 调用 实例 方法 。 

例如 ， 下 面 用 例 代码 中 的 Flips 类 就 使 用 了 Counter 类 。 它 接受 一 个 命令 行 参数 T 并 模拟 T 
次 掷 硬币 〈 它 还 调用 了 StdRandom 类 ) 。 除 了 这 些 直接 用 法 外 ， 我 们 可 以 和 使 用 原始 数据 类 型 的 
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变量 一 样 使 用 和 对 象 关联 的 变量 : 
口 赋值 语句 ; 
口 向 方法 传递 对 象 或 是 从 方法 中 返回 对 象 ; 
口 创建 并 使 用 对 象 的 数组 。 


public class Flips 
{ 


public static void main(String[] args) 
{ 


int T = Integer.parseInt(args[0]); % java Flips 10 
Counter heads = new Counter("heads"); 5 heads 
Counter tails = new Counter("tails"); 5 tails 
for (int t = 0; t < T; t++) delta: 0 
if (StdRandom.bernou11i(0.5)) 4, 
he etre ¥ Java Flips 20 
else tails.increment(); ea 
StdOut.printlnCheads); gy 
StdOut.printInCtails); i 
int d = heads.tally() - tails.tallyO; % java Flips 1000000 
StdOut .printIn("delta: ”+ Math.abs(d)); 499710 heads 
} 500290 tails 
} delta: 580 
Counter 类 的 用 例 ， 模 拟 T 次 掷 硬币 
接 下 来 将 逐个 分 析 它们 。 你 会 发 现 ， 你 需要 从 引用 而 非 值 的 。 counter cli; 
; 站 = C1 = new Counter("ones"); 
角度 去 考虑 问题 才能 理解 这 些 用 法 的 行为 。 C1, incremerntO); 
1.2.1.8 赋值 语句 Counter c2 = cl; 


c2.increment(); 


使 用 引用 类 型 的 赋值 语句 将 会 创建 该 引用 的 一 个 副本 。 赋 值 
语句 不 会 创建 新 的 对 象 ， 而 只 是 创建 男 一 个 指向 某 个 已 经 存在 的 
对 象 的 引用 。 这 种 情况 被 称 为 别名 : 两 个 变量 同时 指向 同一 个 对 
象 。 别 名 的 效果 可 能 会 出 乎 你 的 意料 ， 因 为 对 于 原始 数据 类 型 的 ci 
变量 ， 情 况 不 同 ， 你 必须 理解 其 中 的 差异 。 如 果 x 和 y 是 原始 数 c2 [er 
据 类 型 的 变量 ， 那 么 赋值 语句 x = y 会 将 y 的 值 复制 到 x 中 。 对 
于 引用 类 型 ， 复 制 的 是 引用 【而 非 实际 的 值 ) 。 在 Java 中 ， 别 名 
是 bug 的 常见 原因 ， 如 下 例 所 示 (图 1.2.4) : 

Counter cl = new Counter("ones"); 

cl.increment(); 

Counter c2 = cl; 


c2.increment(); ee 
Stdout.println(c1); 811 Ee 


对 于 一 般 的 tostring0 实现 ， 这 段 代码 将 会 打印 出 "2 
ones"。 这 可 能 并 不 是 我 们 想 要 的 ， 而 且 乍 一 看 有 些 奇怪 。 这 种 
问题 经 常 出 现在 使 用 对 象 经 验 不 足 的 人 所 编写 的 程序 之 中 ( 可 能 
就 是 你 ， 所 以 请 集中 注意 力 ! ) 。 改 变 一 个 对 象 的 状态 将 会 影响 
到 所 有 和 该 对 象 的 别名 有 关 的 代码 。 我 们 习惯 于 认为 两 个 不 同 的 四 124 各 和 


| 


> 指向 同一 个 
对 象 的 引用 
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原始 数据 类 型 的 变量 是 相互 独立 的 ， 但 这 种 感觉 对 于 引用 类 型 的 变量 并 不 适用 。 69 
1.2.1.9 将 对 象 作为 参数 70| 
可 以 将 对 象 作为 参数 传递 给 方法 ， 这 一 般 都 能 简化 用 例 代码 。 例 如 ， 当 我 们 使 用 Counter 对 
象 作为 参数 时 ， 本 质 上 我 们 传递 的 是 一 个 名 称 和 一 个 计数 器 ， 但 我 们 只 需要 指定 一 个 变量 。 当 我 
们 调用 一 个 需要 参数 的 方法 时 ， 该 动作 在 Java 中 的 效果 相当 于 每 个 参数 值 都 出 现在 了 一 个 赋值 
语句 的 右 侧 ， 而 参数 名 则 在 该 赋值 语句 的 左 侧 。 也 就 是 说 ，Java 将 参数 值 的 一 个 副本 从 调用 端 
传递 给 了 方法 ， 这 种 方式 称 为 按 值 传递 (请 见 1.1.6.3 节 ) 。 这 种 方式 的 一 个 重要 后 果 是 方法 无 
法 改变 调用 端 变量 的 值 。 对 于 原始 数据 类 型 来 说 ， 这 种 策略 正 是 我 们 所 期 望 的 〔 两 个 变量 互相 独 
立 ) ， 但 每 当 使 用 引用 类 型 作为 参数 时 我 们 创建 的 都 是 别名 ， 所 以 就 必须 小 心 。 换 句 话说 ， 这 种 
约定 将 会 传递 引用 的 值 ( 复制 引用 ) ， 也 就 是 传递 对 象 的 引用 。 例 如 ， 如 果 我 们 传递 了 一 个 指向 
Counter 类 型 的 对 象 的 引用 ， 那 么 方法 虽然 无 法 改变 原始 的 引用 〈 比如 将 它 指向 另 一 个 Counter 

对 象 ) ， 但 它 能 够 改变 该 对 象 的 值 ， 比 如 通过 该 引用 调用 increment() 方法 。 
1.2.1.10 ”将 对 象 作为 返回 值 

当然 也 能 够 将 对 象 作为 方法 的 返回 值 。 方 法 可 以 将 它 的 参数 对 象 返 回 ， 如 下 面 的 例子 所 示 ， 也 
” 可 以 创建 一 个 对 象 并 返回 它 的 引用 。 这 种 能 力 非常 重要 ， 因 为 Java 中 的 方法 只 能 有 一 个 返回 值 一 一 
有 了 对 象 我 们 的 代码 实际 上 就 能 返回 多 个 值 。 


public class FlipsMax 
public static Counter max(Counter x, Counter y) 


if (x.tallyO > y.tallyO) return x; 
else return y; 
} 


public static void main(String[] args) 
和 


int T = Integer.parseInt(args[0]); 
Counter heads ~ new Counter("heads"); 
Counter tails = new Counter("tails"); 
for (int t = 0; t < T; t++) 
if (StdRandom.bernoul1iC0.5)7 
heads.increment(); 
else tails.incrementO; 


if (heads.tally() 一 tails.tally()) 
StdOut.printin("Tie"); 
else StdOut.printin(max(heads, tails) + ”wins"); 
于 
} 


一 个 接受 对 象 作为 参数 并 将 对 象 作为 返回 值 的 静态 方法 的 例子 [J 


% java FlipsMax 1000000 
500281 tails wins 





1.2.1.11 数组 也 是 对 象 

在 Java 中 , 所 有 非 原 始 数据 类 型 的 值 都 是 对 象 。 也 就 是 说 ， 数 组 也 是 对 象 。 和 字符 串 一 样 ， 
Java 语音 对 于 数组 的 某 些 操作 有 特殊 的 支持 : 声明 、 初 始 化 和 索引 。 和 其 他 对 象 一 样 ， 当 我 们 将 数 
组 传递 给 一 个 方法 或 是 将 一 个 数组 变量 放 在 赋值 语句 的 右 侧 时 ， 我 们 都 是 在 创建 该 数组 引用 的 一 个 
副本 ， 而 非 数组 的 副本 。 对 于 一 般 情 况 , 这 种 效果 正 合适 ， 因 为 我 们 期 望 方法 能 够 重新 安排 数组 的 
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73: 








条 目 并 修改 数组 的 内 容 ， 如 java.uti1s.Array.sort() 或 表 1.1.10 讨论 的 shuffle() 方法 。 
1.2.1.12 ”对 象 的 数组 ; 

我 们 已 经 看 到 ， 数 组 元 素 可 以 是 任意 类 型 的 数据 : 我 们 实现 的 main() 方法 的 args[] 参数 就 
是 一 个 String 对 象 的 数组 。 创 建 -一 个 对 象 的 数组 需要 以 下 两 个 步骤 : 

口 使 用 方 括号 语法 调用 数组 的 构造 函数 创建 数组 ; 9 

口 对 于 每 个 数组 元 素 调用 它 的 构造 函数 创建 相应 的 对 象 。 

例如 ， 下 面 这 段 代 码 模拟 的 是 挪 贷 子 。 它 使 用 了 一 个 Counter 对 象 的 数组 来 记录 每 种 可 能 的 值 
的 出 现 次 数 。 在 Java 中 ， 对象 数组 即 是 一 个 由 对 象 的 引用 组 成 的 数组 ， 而 非 所 有 对 象 本 身 组 成 的 数 
组 。 如果 对 象 非常 大 , 那么 在 移动 它们 时 由 于 只 需要 操作 引用 而 非 对 象 本 身 , 这 就 会 大 大 提高 效率 ; 
如 果 对 象 很 小 ， 每 次 获取 信息 时 都 需要 通过 引用 反而 会 降低 效率 。 


public class Rolls 
{ 
public static void main(String[] args) 


int T = Integer.parseInt(args[0]); 
int SIDES = 6; 
Counter[] rolls = new Counter[SIDES+1]; 
for (int i = 1; 1 <= SIDES; i++) 
rol1s[i] = new Counter(i + "'s"); 


for Cint t = 0; t <T; th 
* 


int result = StdRandom.uniform(1, SIDES+1); % java Rolls 1000000 
rolls[result] ,increment(); 167308 1's 
家 166540 2's 
for (int 1 = 1; i <= SIDES; i++) 166087 3's 
StdOut.printIn(rol1s[i]); 167051 4's 
166422 5's 
了 166592 6's 

模拟 T 次 搓 侦 子 的 Counter 对 象 的 用 例 


有 了 这 些 对 象 的 知识 ， 运 用 数据 抽象 的 思想 编写 代码 〈 定义 和 使 用 数据 类 型 ， 将 数据 类 型 的 
值 封装 在 对 象 中 ) 的 方式 称 为 面向 对 象 编程 。 刚 才学 习 的 基本 概念 是 我 们 面向 对 象 编程 的 起 点 ， 
因此 有 必要 对 它们 进行 简单 的 总 结 。 数 据 灶 型 指 的 是 一 组 值 和 一 组 对 值 的 操作 的 集合 。 我 们 会 将 
数据 类 型 实现 在 独立 的 Java 类 模块 中 并 编写 它们 的 用 例 。 对 象 是 能 够 存储 任意 该 数据 类 型 的 值 的 
实体 ， 或 数据 类 型 的 实例 。 对 象 有 三 大 关键 性 质 : 状态、 标识 和 行为 。 一 个 数据 类 型 的 实现 所 支 
持 的 操作 如 下 。 

口 创建 对 象 ( 创 造 它 的 标识 ) : 使 用 new 关键 字 触 发 构造 函数 并 创建 对 象 ， 初 始 化 对 象 中 的 

值 并 返回 对 它 的 引用 。 

口 操作 对 象 中 的 值 (控制 对 象 的 行为 ， 可 能 会 改变 对 象 的 状态 ) : 使 用 和 对 象 关联 的 变量 调用 

实例 方法 来 对 对 象 中 的 值 进行 操作 。 

口 操作 多 个 对 象 : 创建 对 象 的 数组 ， 像 原始 数据 类 型 的 值 一 样 将 它们 传递 给 方法 或 是 从 方法 中 

返回 ， 只 是 变量 关联 的 是 对 象 的 引用 而 非 对象 本 身 。 

这 些 能 力 是 这 种 灵活 且 应 用 广泛 的 现代 编程 方式 的 基础 , 也 是 我 们 在 本 书 中 对 算法 研究 的 基础 。 
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1.2.2 ”抽象 数据 类 型 举例 

Java 语 言 内 置 了 上 千 种 抽象 数据 类 型 , 我 们 也 会 为 了 辅助 算法 研究 创建 许多 其 他 抽象 数据 类 型 。 
实际 上 ， 我 们 编写 的 每 一 个 Java 程序 实现 的 都 是 某 种 数据 类 型 ( 或 是 一 个 静态 方法 库 ) 。 为 了 控制 
复杂 度 ， 我 们 会 明确 地 说 明 在 本 书 中 用 到 的 所 有 抽象 数据 类 型 的 API ( 实际 上 并 不 多 ) 。 

在 本 节 中 ， 我们 会 举 一 些 抽象 数据 类 型 的 例子 ， 以 及 它们 的 一 些 用 例 。 在 某 些 情况 下 ,我 们 会 
节选 一 些 含有 数 十 个 方法 的 API 的 一 部 分 。 我 们 将 会 用 这 些 API 展示 一 些 实例 以 及 在 本 书 中 会 用 到 
的 一 些 方法 ， 并 用 它们 说 明 要 使 用 一 个 抽象 数据 类 型 并 不 需要 了 解 其 实现 细节 。 
作为 参考 ， 下 页 显示 了 我 们 在 本 书 中 将 会 用 到 或 开发 的 所 有 数据 类 型 。 它 们 可 以 被 分 为 以 下 
几 类 。 .…- 3- 

口 java. 1ang.* 中 的 标准 系统 抽象 数据 类 型 ， 可 以 被 任意 Java 程序 调用 。 

口 Java 标准 库 中 的 抽象 数据 类 型 ， 如 java.swt、java.net 和 javaio， 它 们 也 可 以 被 任意 Java 程 

序 调 用 ， 但 需要 import 语句。 和 

口 IO 处 理 类 抽象 数据 类 型 ， 和 Stdin 和 StdOut 类 似 ， 人 允许 我 们 处 理 多 个 输入 输出 流 。 

口 面向 数据 类 抽象 数据 类 型 ， 它 们 的 主要 作用 是 通过 封装 数据 的 表示 简化 数据 的 组 织 和 处 理 。 
稍 后 在 本 节 中 我 们 将 介绍 在 计算 几何 和 信息 处 理 中 的 几 个 实际 应 用 的 例子 ， 并 会 在 以 后 将 它 
们 作为 抽象 数据 类 型 用 例 的 范例 。 

口 集合 类 抽象 数据 类 型 , 它们 的 主要 用 途 是 简化 对 同一 类 型 的 一 组 数据 的 操作 。 我 们 将 会 在 1.3 
节 中 介绍 基本 的 Bag、Stack 和 Queue 类 , 在 第 2 章 中 介绍 优先 队列 (PQ ) 及 其 相关 的 类 ， 
在 第 3 章 和 第 5 章 中 分 别 介绍 符号 表 ( ST) 和 集合 (SET) 以 及 相关 的 类 。 

口 面向 操作 的 抽象 数据 类 型 ， 我 们 用 它们 分 析 各 种 算法 ， 如 1.4 节 和 1.5 节 所 述 。 

口 图 算法 相关 的 抽象 数据 类 型 ， 它 们 包括 一 些 用 来 封装 各 种 图 的 表示 的 面向 数据 的 抽象 数据 类 
型 ， 和 一 些 提 供 图 的 处 理 算法 的 面向 操作 的 抽象 数据 类 型 。 

这 个 列表 中 并 没有 包含 我 们 将 在 练习 中 遇 到 的 某 些 抽象 数据 类 型 ， 读 者 可 以 在 本 书 的 索引 中 找 
到 它们 。 另 外 ,如 1.2.4.1 节 所 述 , 我 们 常常 通过 描述 性 的 前 缀 来 区 分 各 种 抽象 数据 类 型 的 多 种 实现 。 

从 整体 上 来 说 ， 我 们 使 用 的 抽象 数据 类 型 说 明 组 织 并 理解 你 所 使 用 的 数据 结构 是 现代 编程 中 的 重要 
因素 。 

一 般 的 应 用 程序 可 能 只 会 使 用 这 些 抽象 数据 类 型 中 的 5 ~ 10 个 。 在 本 书 中 ， 开 发 和 组 织 抽象 
数据 类 型 的 主要 目标 是 使 程序 员 们 在 编写 用 例 时 能 够 轻易 地 利用 它们 的 一 小 部 分 。 74 
1.2.2.1 几何 对 象 - 

面向 对 象 编程 的 一 个 典型 例子 是 为 几何 对 象 设计 数据 类 型 。 例 如 ， 表 1.2.3 至 表 1.2.5 中 的 API 
为 三 种 常见 的 几何 对 象 定义 了 相应 的 抽象 数据 类 型 ，Point2D ( 平面 上 的 点 ) 、Interva11D ( 直线 
上 的 间隔 ) 、Interva12D (平面 上 的 二 维 间隔 ， 即 和 数 轴 对 齐 的 长 方形 ) 。 和 以 前 一 样 ， 这 些 API 
都 是 自 文档 化 的 ， 它 们 的 用 例 十 分 容易 理解 ， 列 在 了 表 1.2.5 的 后 面 。 这 段 代码 从 命令 行 读 取 一 个 
Interval12D 的 边界 和 一 个 整数 7， 在 单位 正方 形 内 随机 生成 了 个 点 并 统计 落 在 间隔 之 内 的 点 数 (用 
来 估计 该 长 方形 的 面积 ) 。 为 了 表现 效果 ， 用 例 还 画 出 了 间隔 和 落 在 间隔 之 外 的 所 有 点 。 这 种 计算 
方法 是 一 个 模型 , 它 将 计算 几何 图 形 的 面积 和 体积 的 问题 转化 为 了 判定 一 个 点 是 否 落 在 该 图 形 中 ( 稍 
稍 简单 , 但 仍然 不 那么 容易 ) 。 我 们 当然 也 能 为 其 他 几何 对 象 定义 API， 比 如 线段 、 三 角形 、 多边形、 
圆 等 ， 不 过 实现 它们 的 相关 操作 可 能 十 分 有 挑战 性 。 本 节 未 尾 的 练习 会 考察 其 中 几 个 例子 。 必 
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java.lang 中 的 标准 Java 系统 类 型 集合 类 数据 类 型 
Integer int 的 封装 类 Stack 下 压 栈 
Double double 的 封装 类 Queue 先进 先 出 ( FIFO ) 队列 
String 可 由 索引 访问 的 Bag 包 
char 值 序列 站 优先 队列 
Stptigmrildar 字符 课 构 造 类 IndexMinPQ IndexMaxPQ ”索引 优先 队列 
其 他 Java 数据 类 型 人 和 号 要 
java.awt.Color 。 颜色 sET 集合 
java.awt.Font 字体 stringsT 符号 表 ( 字符 串 键 ) 
java.net.URL URL 面向 数据 的 国 数 所 类 到 
java. io.File 文件 Con 无 向 图 
我 们 的 标准 VO 类 型 a BS 
a 输入 流 Edge 边 (加 权 ) 
Uns 输出 流 EdgeweightedGraph 无 向 图 (加 权 ) 
ld 给 图 类 DirectedEdge 边 (有 向 , 加权) 
用 于 用 例 的 面向 数据 的 数据 类 型 EdgeweightedDigraph 。 图 (有 向 , 加 权 ) 
point2D 平面 上 的 点 间 扩 作 的 轩 关 记 间 
IntervallD 一 维 间隔 UF 动态 连通 性 
Interval2D - 维 间隔 ent 玉生 的 深度 优 于 搜索 
Date 日 期 CC 连通 分 量 
人 的 位 BreadthFirstpaths 路 径 的 广度 优先 搜索 
用 于 算法 分 析 的 数据 类 型 DirectedDFS 有 向 图 路 径 的 深度 优先 搜索 
A baad DirectedBFS 有 向 图 路 径 的 广度 优先 搜索 
eco 累加 器 TransitiveClosure 所 有 路 径 
VisualAccumulator ”可 视 累 加 器 Topological 拓扑 排序 
Se 多 DepthFirstorder 天 优先 扫 过 于 上 被 访 介 的 
Di rectedCycle 环 的 搜索 
sc 强 连 通 分 量 
MST 最 小 生成 树 
sp 最 短路 径 
本 书 中 使 用 的 部 分 抽象 数据 类 型 
表 1.2.3 平面 上 的 点 的 API 
public class Point20 
Point2D(double x, double y) 创建 一 个 点 
double xO x 坐标 
double yO 了 坐标 
double rO 极 径 ( 极 坐标 ) 
double thetaQ) 极 角 ( 极 坐标 ) 


double distTo(Point2D that) 


void draw() 


从 该 点 到 that 的 欧 几 里 德 距离 


用 StdDraw 绘 出 该 点 
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表 1.2.4 直线 上 间隔 的 API 


public class IntervallD 





IntervallD(double 10, double hi) 创建 一 个 间隔 
double TengthO 间隔 长 度 
boolean ”contains(double x) x 是 否 在 间隔 中 
boolean intersect(IntervallD that) ” - 该 间隔 是 否 和 间隔 that 相交 
void draw() 用 StdDraw 绘 出 该 间隔 


表 1.2.5 平面 上 的 二 维 间隔 的 API 
public class Interval2D 





Interval2D(IntervallD x, IntervallD y) 创建 一 个 二 维 间隔 
double areaO) 二 维 间隔 的 面积 
boolean contains(Point2D p) p 是否 在 二 维 间隔 中 
boolean intersect(Interval2D that) 该 间隔 是 否 和 二 维 间隔 that 相交 
void draw() 用 StdDraw 绘 出 该 二 维 间隔 


public static void main(String[] args) 
{ 


double xlo = Double.parseDouble(args[0]); 
double xhi = Double.parseDouble(args[1]); 
double ylo = Double.parseDouble(args[2]); 
double yhi = Double.parseDouble(args[3]); 
int T = Integer.parseInt(args[4]); 


Interva11D xinterval = new IntervallD(xlo, xhi); 
IntervallD yinterval = new IntervallD(ylo, yhi); 
Interval2D box = new Interval2D(x, y); 
box.drawO); 


Counter c = new Counter("hits"); 
for (int t = 0; t <T; t++) 
{ 














double x = Math.random(); 

double y = Math.random(); 

Point2D p = new Point(x, y); 

if (box.contains(p)) c.incrementO; 





else p.drawO); 
} 
StdOut.print1n(c); La 
StdOut.printin(box.area(O)); % java Interval2D .2 .5 .5 .6 10000 
} 297 hits 
.03 
Interva120 的 测试 用 例 


处 理 几何 对 象 的 程序 在 自然 世界 模型 : 科学 计算 、 电 子 游戏 、 电 影 等 许多 应 用 的 计算 中 有 着 广 
泛 的 应 用 。 此 类 程序 的 研发 已 经 发 展 成 了 计算 几何 学 的 这 门 影响 深远 的 研究 学 科 。 在 贯穿 全 书 的 众 
多 例子 中 你 会 看 到 ， 我 们 在 本 书 中 学 习 的 许多 算法 在 这 个 领域 都 有 应 用 。 在 这 里 我 们 要 说 明 的 是 直 
接 表示 几何 对 象 的 抽象 数据 类 型 的 定义 并 不 困难 且 在 用 例 中 的 应 用 也 十 分 简洁 。 本 书 网 站 和 本 节 末 | 76 
尾 的 若干 练习 都 证 明了 这 一 点 。 i 7 
1.2.2.2 信息 处 理 

天 类 要 处 再 万 信用卡 交 明生 -还 是 需要 处 理 数 十 亿 点 击 的 网 络 分 析 公 司 ， 或 是 需 
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要 处 理 数 百 万 实验 观察 结果 的 科学 研究 小 组 ， 无 数 应 用 的 核心 都 是 组 织 和 处 理 信 息 。 抽 象 数据 类 型 
是 组 织 信息 的 一 种 自然 方式 。 虽 然 没 有 给 出 细节 ， 表 1.2.6 中 的 两 份 API 也 展示 了 商业 应 用 程序 中 
的 一 种 典型 做 法 。 这 里 的 主要 思想 是 定义 和 真实 世界 中 的 物体 相对 应 的 对 象 。 一 个 日 期 就 是 一 个 日 、 
月 和 年 的 集合 ,一 笔 交易 就 是 一 个 客户 、 日 期 和 金额 的 集合 。 这 只 是 两 个 例子 ,我 们 也 可 以 为 客户 、 
时 间 、 地 点 、 商 品 、 服 务 和 其 他 任何 东西 定义 对 象 以 保存 相关 的 信息 。 每 种 数据 类 型 都 包含 能 够 创 
建 对 象 的 构造 函数 和 用 于 访问 其 中 数据 的 方法 。 为 了 简化 用 例 的 代码 ， 我 们 为 每 个 类 型 都 提供 了 两 
个 构造 函数 , 一 个 接受 适当 类 型 的 数据 , 男 一 个 则 能 够 解析 字符 串 中 的 数据 ( 细节 请 见 练习 1.2.19 ) 。 
和 以 前 一 样 ， 用 例 并 不 需要 知道 数据 的 表示 方法 。 用 这 种 方式 组 织 数据 最 常见 的 理由 是 将 一 个 对 象 
和 它 相 关 的 数据 变 成 一 个 整体 : 我 们 可 以 维护 一 个 Transaction 对 象 的 数组 ， 将 Date 值 作为 参数 
或 是 某 个 方法 的 返回 值 等 。 这 些 数据 类 型 的 重点 在 于 封装 数据 ， 同 时 它们 也 可 以 确保 用 例 的 代码 不 
依赖 于 数据 的 表示 方法 。 我 们 不 会 深究 这 种 组 织 信息 的 方式 , 需要 注意 的 只 是 这 种 做 法 ， 以 及 实现 
继承 的 方法 toString() 、compareTo() 、equals() 和 hashCode() 可 以 使 我 们 的 算法 处 理 任意 类 
型 的 数据 。 我 们 会 在 1.2.5.4 节 中 详细 讨论 继承 的 方法 。 例如， 我 们 已 经 注意 到 ， 根 据 Java 的 习惯 ， 
在 数据 结构 中 包含 一 个 toStringQ 的 实现 可 以 帮助 用 例 打印 出 由 对 象 中 的 值 组 成 的 一 个 字符 串 。 
我 们 会 在 1.3 节 、2.5 节 、3.4 节 和 3.5 节 中 用 Date 类 和 Transaction 类 作为 例子 考察 其 他 继承 的 
方法 所 对 应 的 习惯 用 法 。1.3 节 给 出 了 有 关 数 据 类 型 和 Java 语言 的 类 型 参数 ( 泛 型 ) 机 制 的 几 个 经 
典 例子 ， 它 们 都 遵循 了 这 些 习惯 用 法 。 第 2 章 和 第 3 章 也 都 利用 了 泛 型 和 继承 的 方法 来 实现 可 以 处 
理 任意 数据 类 型 的 高 效 排序 和 查找 算法 。 


表 1.2.6 商业 应 用 程序 中 的 示例 API 日 期 和 交易 ) 


public class Date implements Comparable<Date> 





Date(int month, int day, int year) 创建 一 个 日 期 
Date(String date) 创建 一 个 日 期 (解析 字符 串 的 构造 函数 ) 
int month() 月 
int dayO 日 
int yearO 年 
String toString(O) 对 象 的 字符 串 表示 
boolean equals(Object that) 该 日 期 和 that 是 否 相 同 
int compareTo(Date that) 将 该 日 期 和 that 比较 
int hashCodeO) 散 列 值 





public class Transaction implements Comparable<Transaction> 


Transaction(String who, Date when, 
double amount) 





Transaction(String transaction) 创建 一 笔 交 易 (解析 字符 串 的 构造 函数 ) 
String who() 客户 名 
Date whenQO) 交易 日 期 
double amount() 交易 金额 
String toStringO) 对 象 的 字符 串 表示 
boolean equals(Object that) 该 笔 交易 和 that 是 否 相同 
int compareTo(Date that) 将 该 笔 交易 和 that 比较 


int hashCode() 散 列 值 
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每 当 遇 到 坎 辑 上 相关 的 不 同类 型 的 数据 时 : 你 都 应 该 考虑 像 刚 才 的 例子 那样 定义 一 个 抽象 数据 
类 型 。 这 么 做 能 够 帮助 我 们 组 织 数 据 并 在 一 般 应 用 程序 中 极 大 地 简化 使 用 者 的 代码 。 它 是 我 们 在 通 


向 数据 抽象 之 路 上 迈 出 的 重要 一 步 。 
1.2.2.3 ”字符 串 . 


Java 的 String 是 一 二 种 重要 而 实用 的 抽象 数据 类 型 。 一 个 String 值 是 一 串 可 以 由 索引 访问 的 
char 值 。String 对 象 拥有 许多 实例 方法 ,如 表 1.2.7 所 示 。 


表 1.2.7 “Java 的 字符 串 API (部 分 ): 





Public class String 





StringO 
:int length() 
int . charAtCint i) 


int ‘indexOf(String p) 


int indexOf(String p, int i) 


String concat(String t) 


String substringCint i, int j) 


String[] split(String delim) 
int compareTo(String t) 
boolean equals(String t) 


int hashCode() 


创建 一 个 空 字符 串 


字符 申 长 度 


第 i 个 字符 

p 第 一 次 出 现 的 位 置 (如 果 没 有 则 返回 -1 ) : 
Pp 在 i 个 字符 后 第 一 次 出 现 的 位 置 ( 如 果 没 有 则 返回 -1 ) 
将 七 附 在 该 字符 申 末尾 

该 字符 串 的 子 字符 申 (第 1 个 字符 到 第 j-1 个 字符 ) 


“使 用 de1im 分 隔 符 切 分 字符 串 


比较 字符 串 
该 字符 串 的 值 和 t 的 值 是 否 相同 
散 列 值 





String 值 和 字符 数组 类 似 ， 但 两 者 是 不 同 的 。 数 组 能 够 通过 Java 语言 的 内 置 语法 访问 每 个 字 
符 ，String 则 为 索引 访问 、 字 符 串 长 度 以 及 其 他 许多 操作 准备 了 实例 方法 。 另 一 方面 ，Java 语言 
为 String 的 初始 化 和 连接 提供 了 特别 的 支持 : 我 们 可 以 直接 使 用 字符 串 字面 量 而 非 构造 函数 来 创 
建 并 初始 化 一 个 字符 串 ， 还 可 以 直接 使 用 + 运算 符 代替 concat () 方法 。 我 们 不 需要 了 解 实现 的 细 


节 ， 但 是 在 第 5 章 中 你 会 看 到 ， 了 解 某 些 方法 的 性 能 特点 
在 开发 字符 串 处 理 算法 时 是 非常 重要 的 。 为 什么 不 直接 使 
用 字符 数组 代替 String 值 ? 对 于 任何 抽象 数据 类 型 ， 这 
个 问题 的 答案 都 是 一 样 的 : 为 了 使 代码 更 加 简洁 清晰 。 有 
了 String 类 型 ， 我 们 可 以 写 出 清晰 干净 的 用 例 代码 而 无 
需 关心 字符 串 的 表示 方式 。 先 看 一 下 右 侧 这 段 短小 的 列表 ， 
其 中 甚至 含有 一 些 需要 我 们 在 第 5 章 才 会 学 到 的 高 级 算法 
才能 实现 的 强大 操作 。 例 如 ，sp1it() 方法 的 参数 可 以 是 
“典型 的 字符 串 处 理 代码 ”( 显 
示 在 下 页 ) 中 splitO 的 参数 是 "\\s+"， 它 表示 “一 个 或 


正则 表达 式 (请 见 54 节 ) , 


多 个 制 表 符 、 空 格 、 换 行 符 或 回 车 ”。 


String a = "now is "; 
String b = "the time "; 
String c = "to" 
方法 
a.lengthO) 
a.charAt(4) 
a.concat(c) 
a.indexOf("is") 
a.substring(2, 5) 
a.split(" ")[0] 
a.split(" ")[1] 
b.equals(c) 


字符 串 操作 举例 





"now is to" 
4 

Pt 

"now" 

a 

false 








78 
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任 “ 敌 实 ” . 现 








判断 字符 串 是 否 是 一 条 回 文 -- public static boolean isPalindrome(String s) 
{ 
int N = s.lengthO; 
for (int i = 0; 1 < N/2; i#+)-- 
if (S.charAt(i) != s.charAt(N-1-1)) 
return false; 
return true; 


从 一 个 命令 行 参 数 中 提取 文件 名 和 String s = args[0]; 
扩展 名 int dot = s.indexOF("."); 
String base = s.substring(0, dot); 
= T String extension = s.substring(dot + 1, s,lengthO);. 


打印 出 标准 输入 中 所 有 含有 通过 命 ”String query = args[0]; 导 
令 行 指定 的 字符 串 的 行 ne {1StdIn.isEmptyO) 


String s = StdIn. readLine(); 
if (s.contains(query)) StdOut.printin(s); 


以 空白 字符 为 分 隔 符 从 Stdin 中 创 String input = StdIn.readA110); 
建 一 个 字符 串 数组 String[] words = input.split("\\s+"); 


检查 一 个 字符 申 数组 中 的 元 素 是 否 ”pub1lic boolean isSortedCString[] a) 
已 按照 字母 表 顺序 排列 。 
for (int 1 = 1; 1 < a.length; 1++) 


if (a[i-1] .compareTokafi]) > 0) 
return false; 


return true; 
典型 的 字符 串 处 理 代码 


1.2.2.4 再 谈 输 入 输出 

1.1 节 中 的 StdIn、StdOut 和 StdDraw 标准 库 的 一 个 缺点 是 对 于 任意 程序 ， 我 们 只 能 接受 一 个 
输入 文件 、 向 一 个 文件 输出 或 是 产生 一 帐 图像 。 有 了 面向 对 象 编程 ， 我 们 就 能 定义 类 似 的 机 制 来 在 
一 个 程序 中 同时 处 理 多 个 输入 流 、 输 出 流 和 图 像 。 具 体 来 说 ， 我 们 的 标准 库 定义 了 数据 类 型 In、 
out 和 Draw， 它 们 的 API 如 表 1.2.8 至 表 1.2.10 所 示 。 当 使 用 一 个 String 类 型 的 参数 调用 它们 的 
构造 函数 时 ，In 和 Out 会 首先 尝试 在 当前 目录 下 查找 指定 的 文件 。 如 果 找 不 到 ， 它 会 假设 该 参数 
是 -= 个 网 站 的 名 称 并 尝试 连接 到 那个 网 站 ( 如 果 该 网 站 不 存在 ， 它 会 地 出 一 个 运行 时 异常 ) 。 无 论 
再 种 情况 ， 指 定 的 文件 或 网 站 都 会 成 为 被 创建 的 输入 或 输出 流 对 象 的 来 源 或 目标 ， 所 有 read*() 和 
print*() 方法 都 会 指向 那个 文件 或 网 站 ( 如 果 你 使 用 的 是 无 参数 的 构造 函数 ， 对 象 将 会 使 用 标准 
的 输入 输出 流 ) 。 这 种 机 制 使 得 单个 程序 能 够 处 理 多 个 文件 和 图 像 ， 你 也 能 将 这 些 对 象 赋 给 变量 ， 
将 它们 当做 方法 的 参数 、 作 为 方法 的 返回 值 或 是 创建 它们 的 数组 ， 可 以 像 操作 任何 类 型 的 对 象 那样 
操作 它们 。 下 页 所 示 的 程序 Cat 就 是 一 个 In 和 0ut 的 用 例 ， 它 使 用 了 多 个 输入 流 来 将 多 个 输入 文 
件 归并 到 同一 个 输出 文件 中 。In 和 Out 类 也 包括 将 仅 含 int、double 或 String 类 型 值 的 文件 读 
取 为 一 个 数组 的 静态 方法 【请 见 1.3.1.5 节 和 练习 1.2.15) 。 、 


public class Cat 


1.2 数据 抽象 可 51 


{ 
public static void main(String[] args) 
{ // 将 所 有 给 入 文件 复制 到 输出 流 (最 后 一 个 参数 ) 中 er ad 
Out out = new Out(args[args. length-1]); a 
for (int i = 0; i < args.length - 1; i++) 
{ // 将 第 i 个 输入 文件 复制 到 输出 流 中 % more in2.txt 
In in = new In(args[i]); a tiny 
String s = in.readA110; test. 
-print1 
a % java Cat inl.txt in2.txt out.txt 
} % more out.txt 
out.closeO; This 1s 
了 a tiny 
} test. 











82 





In 和 0ut 的 用 例 示例 


表 1.2.8 我 们 的 输入 流 数据 类 型 的 API 





public class In 





InO 从 标准 输入 创建 输入 流 


In(String name) 从 文件 或 网 站 创建 输入 流 


boolean isEmptyO 如 果 输 入 流 为 空 则 返回 true， 否 则 返回 false 
int readInt() 读 取 一 个 int 类 型 的 值 
double readDouble() 读 取 一 个 doub1e 类 型 的 值 


void close() 
注 ， In 对 象 也 支持 StdIn 所 支持 的 所 有 操作 


表 1.2.9 我 们 的 输出 流 数据 类 型 的 API 


关闭 输入 流 


public class Out 





outO 从 标准 输出 创建 输出 流 
Out(String name) 从 文件 创建 输出 流 
void print(String s) 将 s 添加 到 输出 流 中 
void printin(String s) 将 s 和 一 个 换行 符 添加 到 输出 流 中 
void printlnO 将 一 个 换行 符 添加 到 输出 流 中 
void printf(String f, ...) 格式 化 并 打印 到 输出 流 中 
void close() 关闭 输出 流 


注 : Out 对 象 也 支持 StdOut 所 支持 的 所 有 操作 
表 1.2.10 ”我 们 的 绘图 数据 类 型 的 API 


public class Draw 





DrawO) 
void 1ineCdouble x0，double y0，double x1, double y1) 
void point(double x, double y) 








注 : Draw 对 象 也 支持 StdDraw 所 支持 的 所 有 操作 。 83 
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1.2.3 ”抽象 数据 类 型 的 实现 

和 静态 方法 库 一 样 ， 我 们 也 需要 使 用 Java 的 类 ( class ) 实现 抽 旬 数据 类 型 并 将 所 有 代码 放 人 入 
一 个 和 类 名 相同 并 带 有 java 扩展 名 的 文件 中 。 文 件 的 第 一 部 分 语句 会 定义 表示 数据 类 型 的 值 的 实 
全 变量 。 它们 之 后 是 实现 对 数据 类 型 的 值 的 操作 的 构造 函 教 和 实例 方法 。 实 例 方法 可 以 是 公共 的 (在 
API 中 说 明 ) 或 是 私有 的 ( 用 于 辅助 计算 ， 用 例 无 法 使 用 ) 。 一 个 数据 类 型 的 定义 中 可 能 含有 多 个 
构造 函数 ， 而 且 也 可 能 含有 静态 方法 ， 特 别 是 单元 测试 用 例 mainC) ， 它 通常 在 调试 和 测试 中 很 实 
用 。 作 为 第 一 个 例子 ， 我 们 来 学 习 1.2.1.1 节 定义 的 E en 
Counter 抽象 数据 类 型 的 实现 。 它 的 完整 实现 ( 带 有 实例 变 ES 
注释 ) 如 图 1.2.5 所 示 , 在 对 它 的 各 个 部 分 的 讨论 中 ，。 量 的 声明 < private int count; 
我 们 还 将 该 图 作为 参考 。 本 书后 面 开发 的 每 个 抽象 数 
据 类 型 的 实现 都 会 含有 和 这 个 简单 例子 相同 的 元 素 。 质 旬 数据 类 型 中 的 实例 室 量 是 取 有 的 


i wy public class Counter em 
三 
实例 变 证 一 |rivate final i 类 名 





private int count; 








ET public Counter CString 1d) i 
{ name = id; } 


public void increment() 


{ count++; } 














lpublic int taliyO 
袜 罗 人 { return count; } 





rm 实例 变量 名 
lpublic String toStringO 
{ return count + " " +name; } 











测试 用 例 一 -一 -|public static void main(String[] args) 
{ 


创建 并 初 一 一 Counter heads = new Counter("heads"); 

始 化 对 象 一 |、Counter tails = new [counterCvtailsej 

heads .incrementOi; 可 大 的 于 村 外 oe 
heads.increment(); 

tails.increment(); 自动 调用 toString() 方 法 





a 对 象 名 
StdOut .printlnCheads + " ”+ tails); 
StdOut .printin(heads. tally() + [tails.tallyG)]); 
} .调用 
} 方法 





图 1.2.5， 详 解数 据 类 型 的 定义 类 


1.2.3.1 实例 变量 4 

要 定义 数据 类 型 的 值 ( 即 每 个 对 象 的 状态 ) ， 我 们 需要 声明 实例 变量 ， 声 明 的 方式 和 局 部 变量 差 
不 多 。 实 例 变 量 和 你 所 熟悉 的 静态 方法 或 是 某 个 代码 段 中 的 局 部 变量 最 关键 的 区 别 在 于 : 每 一 时 刻 每 
个 局 部 变量 只 会 有 一 个 值 , 但 每 个 实例 变量 则 对 应 着 无 数值 (数据 类 型 的 每 个 实例 对 象 都 会 有 一 个 ) 。 
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这 并 不 会 产生 二 义 性 ， 因 为 我 们 在 访问 实例 变量 时 都 需要 通过 一 个 对 象 一 一 我 们 访问 的 是 这 个 对 象 的 
值 。 同 样 ， 每 个 实例 变量 的 声明 都 需要 一 个 可 见 性 修饰 符 。 在 抽象 数据 类 型 的 实现 中 ， 我 们 会 使 用 
private， 也 就 是 使 用 Java 语言 的 机 制 来 保证 向 使 用 者 隐藏 抽象 数据 类 型 中 的 数据 表示 ， 如 下 面 的 示 
例 所 示 。 如 果 该 值 在 初始 化 之 后 不 应 该 再 被 改变 ， 我 们 也 会 使 用 fina1。Counter 类 型 含有 两 个 实例 
变量 ,一 个 String 类 型 的 值 name 和 一 个 int 类 型 的 值 count。 如 果 我 们 使 用 pub1ic 修饰 这 些 实例 
变量 ( 在 Java 中 是 允许 的 ) ,那么 根据 定义 , 这 种 数据 类 型 就 不 再 是 抽象 的 了 ,因此 我 们 不 会 这 么 做 。 
1.2.3.2 构造 函数 

每 个 Java 类 都 至 少 含有 一 个 构造 函数 以 创建 一 个 对 象 的 标识 。 构 造 函 数 类 似 于 一 个 静态 方法 ， 但 
它 能 够 直接 访问 实例 变量 且 没 有 返回 值 。 一 般 米 说 ,构造 函数 的 作用 是 初始 化 实例 变量 。 每 个 构造 两 | 84 
数 都 将 创建 一 个 对 象 并 向 调用 者 返回 一 个 该 对 象 的 引用 。 构 造 函数 的 名 称 总 是 和 类 名 相同 。 我 们 可 以 ”|85 
和 重 载 方法 一 样 重 载 这 个 名 称 并 定义 签名 不 同 的 多 
es 如 果 没 有 定义 构造 函数 ， 类 将 会 隐 式 

-个 默认 情况 下 不 接受 任何 参数 的 构造 函数 并 

gs 原始 数字 类 型 的 
实例 变量 默认 值 为 0， 布 尔 类 型 变量 为 false， 引 可 见 性 没有 指定 返 构造 函数 名 称 参数 


用 类 型 变量 为 nu11。 我 们 可 以 在 声明 诸 句 中 初始 。。。 修饰 符 回 值 的 类 型 《和 类 名 相同 ) 2 
声明 计 和 NN | 所 Wg 






































化 这 些 实例 变量 并 改变 这 些 味 值 。 当 用 例 使 有 [NT eam Cr 

键 字 new 时 ，Java 会 自动 触发 一 个 构造 函数 。 重 载 { [rare = 10;]} 

构造 函数 一 般 用 于 将 实例 变量 由 默认 值 初始 化 为 用 是 签名 
有 - 受 一 初始 化 实例 变量 的 代码 

例 提供 的 值 。 例 如 ，Counter 类 型 有 个 接受 一 个 参 AN 


数 的 构造 函数 ， 它 将 实例 变量 name 初始 化 为 由 参 
数 给 定 的 值 ( 实例 变量 count 仍 将 被 初始 化 为 默认 
值 0) 。 构 造 丽 数 解析 如 图 1.2.6 所 示 。 图 1.2.6 详解 构造 函数 
1.2.3.3 ”实例 方法 

实现 数据 类 型 的 实例 方法 ( 即 每 个 对 象 的 行为 ) 的 代码 和 1.1 节 中 实现 静态 方法 ( 函数 ) 的 代码 
完全 相同 。 每 个 实例 方法 都 有 一 个 返回 值 类 型 、 一 个 签名 ( 它 指定 了 方法 名 、 返 回 值 类 型 和 所 有 参数 
变量 的 名 称 ) 和 一 个 主体 ( 它 由 一 系列 语句 组 成 ， 包 括 一 个 返回 语句 来 将 一 个 返回 类 型 的 值 传递 给 调 
用 者 ) 。 当 调用 者 触发 了 一 个 方法 时 ， 方 法 的 参数 ( 如 果 有 ) 均 会 被 初始 化 为 调用 者 所 提供 的 值 ， 
方法 的 语句 会 被 执行 ， 直 到 得 到 一 个 返回 值 并 且 将 该 值 返回 给 调用 者 。 它 的 效果 就 好 像 调 用 者 代码 中 
的 函数 调用 被 替换 为 了 这 个 返回 值 。 实 例 方法 的 所 有 这 些 行为 都 和 静态 方法 相同 ， 只 有 一 点 关键 的 不 
同 : 它们 可 以 访问 并 操作 实例 变量 。 如 何 指定 我 们 希望 使 用 的 对 象 的 实例 变量 ?只 要 稍 加 思考 ， 就 能 
够 得 到 合理 的 答案 ， 在 一 个 实例 方法 中 对 变量 的 引用 指 的 是 该 方法 的 变量 中 的 值 。 当 我 们 调用 heads. 
increment() 时 ，increment 0 方法 中 的 代码 访问 的 是 heads 中 的 实例 变量 。 换 名 话说， 面向 对 象 编 “[ 86 
程 为 Java 程序 增加 了 另 一 种 使 用 变量 的 重要 方式 。 避风 性 返回 

口 通过 触发 一 个 实例 方法 来 操作 该 对 象 的 值 。 修志 符 什 闪 型 。 广 尖 名 

这 与 调用 静态 方法 仅仅 是 语法 上 的 区 别 (请 a 
见 答疑 ) ， 但 在 许多 情况 下 它 颠覆 了 现代 程序 员 ea 
对 程序 开发 的 思维 方式 。 你 会 看 到 ， 这 种 方式 与 \ 
算法 和 数据 结构 的 研究 非常 契合 。 实 例 方法 解析 实例 赤 量 名 
如 图 1.2.7 所 示 。 图 1.2.7 详解 实例 方法 














名 
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1.2.3.4 作用 域 
总 的 来 说 ,我们 在 实现 实例 方法 的 Java 代码 中 使 用 了 三 种 变量 : 
口 参数 变量 ; 
口 局 部 变量 ; os class Example 一 实例 变量 
口 实例 变量 。 private int var; 
在 静态 方法 中 前 两 者 的 用 法 没有 变化 : A 
方法 的 签名 定义 了 参数 变量 ， 在 方法 被 调用 privare void nethod10 
时 参数 方法 会 被 初始 化 为 调用 者 提供 的 值 ; re g 
局 部 变量 的 声明 和 初始 化 都 在 方法 的 主体 中 。 。 局 是 一 于 人 
参数 变量 的 作用 域 是 整个 方法 ;局 部 变量 的 thisivar 
作用 域 是 当前 代码 段 中 它 的 定义 之 后 的 所 有 二 一 ~ 二 实例 变量 
语句 。 实 例 变量 则 完全 不 同 ( 如 右 侧 示例 所 L 人 
示 ) : 它们 为 该 类 的 对 象 保存 了 数据 类 型 的 2 
值 ， 它 们 的 作用 域 是 整个 类 ( 如 果 出 现 二 义 和 
性 ， 可 以 使 用 this 前 级 来 区 别 实例 变量 ) 。 | 调用 实例 变量 
理解 实例 方法 中 这 三 种 变量 的 区 别 是 理解 面 } 
向 对 象 编程 的 关键 。 实例 方法 中 的 实例 变量 和 局 部 变量 的 作用 范围 


1.2.3.5 API、 用 例 与 实现 
这 些 都 是 你 要 在 Java 中 构造 并 使 用 抽象 数据 类 型 所 需要 理解 的 基本 组 件 。 我 们 将 要 学 习 的 每 
个 抽象 数据 类 型 的 实现 都 会 是 一 个 含有 若干 私有 实例 变量 、 构 造 函 数 、 实 例 方法 和 一 个 测试 用 例 
的 Java 类 。 要 完全 理解 一 个 数据 类 型 我们 需要 它 的 API、 典 型 的 用 例 和 它 的 实现 。Counter 类 型 
的 总 结 请 见 表 1.2.11。 为 了 强调 用 例 和 实现 的 分 离 ， 我 们 一 般 会 将 用 例 独 立成 为 含有 一 个 静态 方法 
main() 的 类 ， 并 将 数据 类 型 定义 中 的 main() 方法 预 留 为 一 个 用 于 开发 和 最 小 单元 测试 的 测试 用 例 
( 至 少 调用 每 个 实例 方法 一 次 ) 。 我 们 开发 的 每 种 数据 类 型 都 会 遵循 相同 的 步骤。 我 们 思考 的 不 是 
应 该 采取 什么 行动 来 达成 某 个 计算 性 的 目的 ( 如 同 我 们 第 一 次 学 习 编程 时 那样 ) ， 而 是 用 例 的 需求 。 
我 们 会 按照 下 面 三 步 走 的 方式 用 抽象 数据 类 型 满足 它们 。 
口 定义 一 份 API: API 的 作用 是 将 使 用 和 实现 分 离 ， 以 实现 模块 化 编程 。 我 们 制定 一 份 API 的 目 
标 有 二 : 第 一 ， 我 们 希望 用 例 的 代码 清晰 而 正确 ， 事 实 上 ， 在 最 终 确定 API 之 前 就 编写 一 些 
用 例 代 码 来 确保 所 设计 的 数据 类 型 操作 正 是 用 例 所 需要 的 是 很 好 的 主意 ; 第 二 ， 我 们 希望 能 
够 实现 这 些 操作 ， 定 义 一 些 无 法 实现 的 操作 是 没有 意义 的 。 
口 用 一 个 Java 类 实现 API 的 定义 : 首先 我 们 选择 适当 的 实例 变量 ， 然 后 再 编写 构造 函数 和 实 
例 方法 。 
口 实现 多 个 测试 用 例 来 验证 前 两 步 做 出 的 设计 决定 。 


表 1.2.11 一 个 简单 计数 器 的 抽象 数据 类 型 
API public class Counter 





Counter(String id) 创建 一 个 名 为 id 的 计数 器 
void increment() 将 计数 器 的 值 加 1 
int tallyO 计数 器 的 值 


String toStringO 对 象 的 字符 串 表示 
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( 续 ) 





典型 的 用 例 
public class Flips 
{ 


public static void main(String[] args) 
{ 


int T = Integer.parseInt(args[0]); 
Counter heads = new Counter("hea 
Counter tails = new Counter("tails" 
for (int t = 0; t <T; t++) 

if (StdRandom.bernou11i(0.5)) 

heads ,increment(); 

else tails.increment(); 
StdOut.printin(heads); 
StdOut.printin(tails); 
int d = heads.tallyO) - tails.tallyO; 
StdOut.printin("delta: ”+ Math.abs(d)); 







数据 类 型 的 实现 Ch 使 用 方法 


public class Counter % java Flips 1000000 
{ 500172 heads 
private final String name; 499828 tails 
private int count; delta: 344 
public Counter(String id) 
{ name = id; } 
public void increment() 
{ count++; } 
public int tally() 
{ return count; } 
public String toStringC) 
{ return count + " " + name; } 








用 例 -- 般 需要 什么 操作 ? 数据 类 再 的 值 应 该 是 什么 才能 最 好 地 支持 这 些 操作 ? 这 些 基本 的 判断 [机 
是 我 们 开发 的 每 种 实现 的 核心 内 容 。 9 


1.2.4 更 多 抽象 数据 类 型 的 实现 -= 


和 任何 编程 概念 一 样 ， 理 解 抽象 数据 类 型 的 威力 和 用 法 的 最 好 办 法 就 是 仔细 研究 更 多 的 例子 和 
实现 。 本 书 中 大 量 代码 是 通过 抽象 数据 类 型 实现 的 ， 因 此 你 的 机 会 很 多 ,但 是 一 些 更 简单 的 例子 能 
一 - 够 帮助 我 们 为 研究 抽象 数据 类 型 打 好 基础 。 & 
一 一 人.2.4:1 月 期 
表 12.12 是 我 们 在 表 1.2.6 中 定义 的 Date 抽象 数据 类 型 的 两 种 实现 。 简 单 起 见 ， 我 们 省 
略 了 解析 字符 串 的 构造 函数 ( 请 见 练习 1.2.19 ) 和 继承 的 方法 equalsO (请 见 1.2.5.8 节 ) 、 
”compareToO (请 见 2.1.1.4 节 ) 和 hashCode().( 请 见 练习 3.4.22) 。 表 1.2.12 中 左 侧 的 简单 实现 一 
将 日 、 月 和 年 设 为 实例 变量 ， 这 样 实例 方法 就 可 以 直接 返回 适当 的 值 ; 右 侧 的 实现 更 加 节省 空间 
仅 使 用 了 一 个 int 变量 来 表示 一 个 日 期 。 它 将 d 日 、m 月 和 y 年 的 一 个 日 期 表示 为 一 个 混合 进 制 的 
-整数 512y+32m+d。 用 例 分 辩 这 两 种 实现 的 区 别 的 一 种 方法 可 能 是 打破 我 们 对 日 期 的 隐 式 假设 : 第 
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二 种 实现 的 正确 性 基于 日 的 值 在 6 到 31 之 间 ,: 月 的 值 在 0 到 15 之 间 , 年 的 值 为 正 ( 在 实际 应 用 中 ， 
两 种 实现 都 应 该 检查 月 份 的 值 是 否 在 1 到 12 之 间 ， 日 的 值 是 否 在 1 到 31 之 间 ， 以 及 例如 2009 年 6 
月 31 日 和 2 月 29 日 这 样 的 非法 日 期 ， 尽 管 这 么 做 要 费 些 工夫 ) 。 这 个 例子 的 主要 意思 是 说 明 我 们 
在 APE 中 极 少 完整 地 指定 对 实现 的 要 求 《 一 般 来 说 我 们 都 会 尽力 而 为 ， 这 里 还 可 以 做 得 更 好 ) 。 用 
例 要 分 辨 出 这 两 种 实现 的 区 别 的 另 一 种 方法 是 性 能 ， 右 侧 的 实现 中 保存 数据 类 型 的 值 所 需 的 空间 较 
少 ， Med te in (需要 进行 一 两 次 算数 运算 ) 。 

这 种 交换 是 很 常见 的 : 某 些 用 例 可 能 偏爱 其 中 一 种 实现 ， 而 另 一 些 用 例 可 能 更 喜欢 另 一 种 ， 因 此 我 
们 两 者 都 要 满足 。 上 ， 本 书 中 反复 出 现 的 一 个 主题 就 是 我 们 需要 理解 各 种 实现 对 空间 和 时 间 的 
需求 以 及 它们 对 各 种 用 例 的 适用 性 。 在 实现 中 使 用 数据 抽象 的 一 个 关键 优势 是 我 们 可 以 将 一 种 实现 
替换 为 男 一 种 而 无 需 改变 用 例 的 任何 代码 。 





表 1.2.12 一 种 封装 日 期 的 抽象 数据 类 型 以 及 它 的 两 种 实现 
API public class Date 








Date(int. month, int day, int year) 创建 一 个 日 期 
int ,day©O 区 日 
int monthO 月 
int yearO 年 
String toString() 对 象 的 字符 申 表示 
测试 用 例 使 用 方法 
public static void main(String[] args) % java Date 12 31 1999 
和 12/31/1999 


int m = Integer.parseInt(args[0]); 
int d = Integer.parseInt(args[1]); 
int y = Integer.parseInt(args[2]); 
Date date = new Date(m, d, y); 
StdOut.printin(date); 


} 
数据 类 型 的 实现 数据 类 型 的 另 一 种 实现 

public class Date f public class Date 

开 { 
private final int month; private final int value; 
private final int day; public DateCint m, int d, int y) 
private final int year; { value = y*512 + m*32 + d; } 
public DateCint m, int d, int y) public int month() 
{ month = mi day = di year = y; } { return (value / 32) % 16; } 
public int month() public int dayO 
{ return month; } { return value % 32; } 
public int dayO public int year() 
{ “return day; } { return value / 512; } 
public int yearO 


{ return year; } public String toString() 

public String toSt! 8! 3 { return monthGO + "/" + dayO) 

{ return month(O) + dayO + "/" + yearO); } 
+ yearO; } 了 
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1.2.4.2 ”维护 多 个 实现 

同一 份 API 的 多 个 实现 可 能 会 产生 维护 和 命名 问题 。 在 某 些 情况 下 ， 我 们 可 能 只 是 想 将 较 老 的 实 
现 蔡 换 为 改进 的 实现 。 而 在 另 一 些 情况 下 ， 我 们 可 能 需要 维护 两 种 实现 ， 一 种 适用 于 某 些 用 例 ， 另 一 
种 适用 于 另 一 些 用 例 。 - ， 本 书 的 一 个 主要 目标 就 是 深入 讨论 若干 种 基本 抽象 数据 结构 的 实现 并 “| 90 
衡量 它们 的 性 能 的 不 同 。 在 本 书 中 ， 我 们 经 常会 比较 同一 份 API 的 两 种 不 同 实现 在 同一 个 用 例 中 的 性 |91 
能 表现 。 为 此 ， 我 们 通常 采用 一 种 非 正 式 的 命名 约定 。 

口 通过 前 级 的 描述 性 修饰 符 区 别 同 一 份 API 的 不 同 实现 。 例 如 ， 我 们 可 以 将 表 1.2.12 中 的 

Date 实现 命名 为 BasicDate 和 Sma11Date， 我 们 可 能 还 希望 实现 一 种 能 够 验证 日 期 是 否 合 
法 的 SmartDate。 

口 维护 一 个 没有 前 级 的 参考 实现 ， 它 应 该 适合 于 大 多 数 用 例 的 需求 。 在 这 里 ， 大 多 数 用 例 应 该 

直接 会 使 用 Date。 

在 一 个 庞大 的 系统 中 ， 这 种 解决 方案 并 不 理想 ， 因 为 它 可 能 会 需要 修改 用 例 的 代码 。 例 如 ， 如 
果 需 要 开发 一 个 新 的 实现 ExtraSma11Date， 那 么 我 们 只 能 修改 用 例 的 代码 或 是 让 它 成 为 所 有 用 例 
的 参考 实现 。Java 有 许多 高 级 语言 特性 来 保证 在 无 需 修改 用 例 代码 的 情况 下 维护 多 个 实现 ， 但 我 们 
很 少 会 使 用 它们 ， 因 为 即使 Java 专家 使 用 起 它们 来 也 十 分 困难 ( 有 时 甚至 是 有 争议 的 ) ， 尤 其 是 同 
我 们 极为 需要 的 其 他 高 级 语言 特性 ( 泛 型 和 和 迭代 器 ) 一 起 使 用 时 。 这 些 问题 很 重要 ( 例如 ， 忽 略 它 
们 会 导致 千 禧 年 著名 的 Y2K 问题 ， 因 为 许多 程序 使 用 的 都 是 它们 自己 对 日 期 的 抽象 实现 ， 且 并 没 
有 考虑 到 年 份 的 头 两 位 数字 ) ,但 是 深究 它们 会 使 我 们 大 大 偏离 对 算法 的 研究 。 
1.2.4.3 ”累加 器 

表 1.2.13 中 的 累加 器 API 定义 了 一 种 能 够 为 用 例 计算 一 组 数据 的 实时 平均 值 的 抽象 数据 类 型 。 
例如 ， 本 书 中 经 常会 使 用 该 数据 类 型 来 处 理 实验 结果 ( 请 见 1.4 节 ) 。 它 的 实现 很 简单 : 它 维护 一 个 
int 类 型 的 实例 变量 来 记录 已 经 处 理 过 的 数据 值 的 数量 ， 以 及 一 个 double 类 型 的 实例 变量 来 记录 所 
有 数据 值 之 和 ， 将 和 除 以 数据 数量 即 可 得 到 平均 值 。 请 注意 该 实现 并 没有 保存 数据 的 值 一 一 它 可 以 用 
于 处 理 大 规模 的 数据 ( 甚至 是 在 一 个 无 法 全 部 保存 它们 的 设备 上 ) ， 而 一 个 大 型 系统 也 可 以 大 量 使 用 


表 1.2.13 一 种 能 够 累加 数据 的 抽象 数据 类 型 


API public class Accumulator 























Accumulator() 创建 一 个 累加 器 
void addDatavalue(double val) 添加 一 个 新 的 数据 值 
double mean() 所 有 数据 值 的 平均 值 
String toStringO 对 象 的 字符 串 表示 
典型 的 用 例 使 用 方法 
public class TestAccumulator % java TestAccumulator 1000 


Mean (1000 values): 0.51829 


% java TestAccumulator 1000000 
int T = Integer.parseInt(args[0]); Mean (1000000 values): 0.49948 
Accumulator a = new Accumulator(); % java TestAccumulator 1000000 


for (int t = 0; t < T; t++) 000000 
avaddDataValueCStdRandom randomC)); ee 


StdOut.println(a); 


public static void main(String[] args) 
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( 续 ) 
的 实现 - 
public class Accumulator 


private double total; 

private int N; 

public void addDatavalue(double val) 
{ 


N+t; 
total += val; 


} 
public double mean() 
{ return total/N; } 
public String toString() 
{ return "Mean (" + N + " values): " 
+ String.format("%7.5f", mean()); 于 








592 | 累加 器 。 这 种 性 能 特点 很 容易 被 忽视 ， 所 以 也 许 应 该 在 API 中 注 明 ， 因 为 一 种 存储 所 有 数据 值 的 实现 
93 | 可 能 会 使 调用 它 的 应 用 程序 用 光 所 有 内 存 。 
1.2.4.4 可 视 化 的 累加 器 
表 1.2.14 所 示 的 可 视 化 累加 器 的 实现 继承 了 Accumulator 类 并 展示 了 一 种 实用 的 副作用 : 它 
用 StdDraw 画 出 了 所 有 数据 ( 灰色 ) 和 实时 的 平均 值 (红色 ) ， 见 图 1.2.8。 完 成 这 项 任务 最 简单 
的 办 法 是 添加 一 个 构造 函数 来 指定 需要 绘 出 的 点 数 和 它们 的 最 大 值 ( 用 于 调整 图 像 的 比例 ) 。 严 格 
说 来 ，VisualAccumulator 并 不 是 Accumulator 的 API 的 实现 ( 它 的 构造 函数 的 签名 不 同 且 产生 











使 用 方法 


左 起 第 NM 个 红 点 的 高 度 为 最 
靠 左 的 NM 个 灰 点 的 平均 高 度 





“人 灰 点 的 高 度 
中 即 数据 点 的 值 ”% java TestVisualAccumulator 2000 
R Mean (2000 values): 0.509789 











94 图 1.2.8 ”可视化 累加 器 图 像 〈 另 见 彩 插 ) 
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了 一 种 不 同 的 副作用 ) 。 一 般 来 说 ,我 们 会 仔细 而 完整 地 设计 API， 并 且 一 旦 定型 就 不 愿 再 对 它 做 
任何 改动 ， 因 为 这 有 可 能 会 涉及 修改 无 数 用 例 ( 和 实现 ) 的 代码 。 但 添加 一 个 构造 函数 来 取得 某 些 
功能 有 时 能 够 获得 通过 ， 因 为 它 对 用 例 的 影响 和 改变 类 名 所 产生 的 变化 相同 。 在 本 例 中 ， 如 果 已 经 
开发 了 一 个 使 用 Accumulator 的 用 例 并 大 量 调用 了 addDataValue() 和 meanC) ， 只 需 改 变 用 例 的 
一 行 代码 就 能 享受 到 visualAccumulator 的 优势 。 


表 1.2.14 ”一 种 能 够 累加 数据 的 抽象 数据 类 型 〈 可 视 版 本 ， 另 见 彩 插 ) 


API public class VisualAccumulator 
VisualAccumulator(Cint trials, double max) 








“void addDataValue(double val) 添加 一 个 新 的 数据 值 
double meanO) 所 有 数据 的 平均 值 
String toStringO - 对 象 的 字符 串 表示 
奥 型 的 用 例 public class TestVisualAccumulator 
public static void main(String[] args) 
{ 
int T = Integer.parseInt(args[0]); 
VisualAccumulator a = new VisualAccumulator(T,1,0); 
for (int t = 0; t <T; t++) 
a.addDatavalue(StdRandom. random()); 
Srdout.println(a); 
} 
} 
数据 类 型 的 实现 public class VisualAccumulator 


{ 
private double total; 
private int Ni 
public VisualAccumulator(Cint trials, double max) 


2 StdDraw. setXscale(0, trials); 
StdDraw. setYscale(0, max); 
StdDraw. setPenRadius(.005); 


. 
public void addDataVaiue(double val) 


N++; 

total += val; 

StdDraw. setPenColor (StdDraw.DARK_GRAY) ; 
StdDraw.point(N, val); 

StdDraw. setPenColor (StdDraw.RED) ; 
StdDraw.point(N, total/N); 


. 

public double mean() 
public String tostring©O 
// 和 Accumulator 相同 
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1.2.5 “数据 类 型 的 设计 


抽象 数据 类 型 是 一 种 向 用 例 隐藏 内 部 表示 的 数据 类 型 。 这 种 思想 强 有 力 地 影响 了 现代 编程 。 我 
们 遇 到 过 的 众多 例子 为 我 们 研究 抽象 数据 类 型 的 高 级 特性 和 它们 的 Java 实现 打下 了 基础 。 简 单 看 来 ， 
下 面 的 许多 话题 和 算法 的 学 习 关系 不 大 ， 因 此 你 可 以 跳 过 本 节 ， 在 今后 实现 抽象 数据 类 型 中 遇 到 特 
定 问题 时 再 回 过 头 来 参考 它 。 我 们 的 目的 是 将 关于 设计 数据 类 型 的 重要 知识 集中 起 来 以 供 参考 ， 并 
为 本 书 中 的 所 有 抽象 数据 类 型 的 实现 做 铺垫 。 
1.2.5.1 封装 

面向 对 象 编程 的 特征 之 一 就 是 使 用 数据 类 型 的 实现 封装 数据 ， 以 简化 实现 和 隔离 用 例 开 发 。 封 
装 实现 了 模块 化 编程 ， 它 允许 我 们 : 

癌 独立 开发 用 例 和 实现 的 代码 ; 

口 切换 至 改进 的 实现 而 不 会 影响 用 例 的 代码 ; 

口 支持 尚未 编写 的 程序 ( 对 于 后 续 用 例 ，API 能 够 起 到 指南 的 作用 ) 。 

封装 同时 也 隔离 了 数据 类 型 的 操作 ， 这 使 我 们 可 以 : 

口 限制 潜在 的 错误 ; 

口 在 实现 中 添加 一 致 性 检查 等 调试 工具 ; 

口 确保 用 例 代码 更 明晰 。 

一 个 封装 的 数据 类 型 可 以 被 任意 用 例 使 用 ， 因 此 它 扩展 了 Java 语言 。 我 们 所 提倡 的 编程 风格 是 
将 大 型 程序 分 解 为 能 够 独立 开发 和 调试 的 小 型 模块 。 这 种 方式 将 修改 代码 的 影响 限制 在 局 部 区 域 ， 
改进 了 我 们 的 软件 质量 。 它 也 促进 了 代码 复 用 ， 因 为 我 们 可 以 用 某 种 数据 类 型 的 新 实现 代替 老 的 实 

， 现 来 改进 它 的 性 能 、 准 确 度 或 是 内 存 消耗 。 同 样 的 思想 也 适用 于 许多 其 他 领域 。 我 们 在 使 用 系统 库 
时 常常 从 封装 中 受益 。Java 系统 的 新 实现 往往 更 新 了 多 种 数据 类 型 或 静态 方法 库 的 实现 ， 但 它们 的 
API 并 没有 变化 。 在 算法 和 数据 结构 的 学 习 中 ， 我 们 总 是 希望 开发 出 更 好 的 算法 ， 因 为 只 需 用 抽象 
“数据 类 型 的 改进 实现 蔡 换 老 的 实现 即 可 在 不 改变 任何 用 例 代码 的 情况 下 改进 所 有 用 例 的 性 能 。 模 块 
化 编程 成 功 的 关键 在 于 保持 模块 之 间 的 独立 性 。 我 们 坚持 将 API 作为 用 例 和 实现 之 间 唯 一 的 依赖 点 
来 做 到 这 一 点 。 并 不 需要 知道 一 个 数据 类 型 是 如 何 实现 的 才能 使 用 它 ， 实 现 数据 类 型 时 也 应 该 假设 
[56] 使 用 者 除了 -API 什么 也 不 知道 。 封 装 是 获得 所 有 这 些 优势 的 关键 。 

1.2.5.2 设计 API 

构建 现代 软件 最 重要 也 最 有 挑战 的 一 项 任务 就 是 设计 API。 它 需要 经 验 、 思 考 和 反复 的 修改 ， 
但 设计 一 份 优秀 的 API 所 付出 的 所 有 时 间 都 能 从 调试 和 代码 复 用 所 节省 的 时 间 中 获得 回报 。 为 一 个 
小 程序 给 出 一 份 API 似乎 有 些 多 余 ， 但 你 应 该 按照 能 够 复 用 的 方式 编写 每 个 程序 。 理 想 情况 下 ， 一 
份 API 应 该 能 够 清楚 地 说 明 所 有 可 能 的 输入 和 副作用 ， 然 后 我 们 应 该 先 写 出 检查 实现 是 否 与 APL 相 
符 的 程序 。 但 不 幸 的 是 ， 计 算 机 科学 理论 中 一 个 叫做 说 明 书 问题 【specification problem ) 的 基础 结 
论说 明 这 个 目标 是 不 可 能 实现 的 。 简 单 地 说 ， 这 样 一 份 说 明 书 应 该 用 一 种 类 似 于 编程 语言 的 形式 语 
言 编写 。 而 从 数学 上 可 以 证 明 ， 判 定 这 样 两 个 程序 进行 的 计算 是 否 相同 是 不 可 能 的 。 因 此 ， 我 们 的 
API 将 是 与 抽象 数据 类 型 相关 联 的 值 以 及 一 系列 构造 函数 和 实例 方法 的 目的 和 副作用 的 自然 语言 描 
述 。 为 了 验证 我 们 的 设计 ， 我 们 会 在 API 附近 的 正文 中 给 出 一 些 用 例 代码 。 但 是 ， 这 些 宏观 概述 之 
中 也 隐藏 着 每 一 份 API 设 计 都 可 能 落 入 的 无 数 陷阱 。 

口 API 可 能 会 难以 实现 :- 实现 的 开发 非常 困难 ， 甚 至 不 可 能 。 


1.2 数据 抽象 可 61 


口 API 可 能 会 难以 使 用 : 用 例 代码 甚至 比 没有 API 时 更 复杂 。 

口 API 的 范围 可 能 太 窄 : 缺少 用 例 所 需 的 方法 。 

口 API 的 范围 可 能 太 宽 : 包含 许多 不 会 被 任何 用 例 调用 的 方法 。 这 种 缺陷 可 能 是 最 常见 的 ， 并且 

也 是 最 难以 避免 的 。API 的 大 小 一 般 会 随 着 时 间 而 增长 ， 因 为 向 已 有 的 API 中 添加 新 方法 很 
简单 ， 但 在 不 破坏 已 有 用 例 程序 的 前 提 下 从 中 删除 方法 却 很 困难 。 

口 API 可 能 会 太 和 粗略 : 无 法 提供 有 效 的 抽象 。 

口 APL 可 能 会 太 详 细 : 抽象 过 于 细致 或 是 发 散 而 无 法 使 用 。 

口 API 可 能 会 过 于 依赖 某 种 特定 的 数据 表示 : 用 例 代码 可 能 会 因此 无 法 从 数据 表示 的 细节 中 解 

脱出 来 。 要 避免 这 种 缺陷 也 是 很 困难 的 ， 因 为 数据 表示 显然 是 抽象 数据 类 型 实现 的 核心 。 

这 些 考虑 有 时 又 被 总 结 为 另 一 句 格言 : 只 为 用 例 提 供 它们 所 需要 的 ， 仅 此 而 已 。 
1.2.5.3 ”算法 与 抽象 数据 类 型 

数据 抽象 天 生 适 合算 法 研究 ， 因 为 它 能 够 为 我 们 提供 一 个 框架 ， 在 其 中 能 够 准确 地 说 明 一 个 算 
法 的 目的 以 及 其 他 程序 应 该 如 何 使 用 该 算法 。 在 本 书 中 ， 算 法 一 般 都 是 某 个 抽象 数据 类 型 的 一 个 实 
例 方法 的 实现 。 例 如 ， 本 章 开头 的 白 名 单 例子 就 很 自然 地 被 实现 为 一 个 抽象 数据 类 型 的 用 例 。 它 进 
行 了 以 下 操作 : 

口 由 一 组 给 定 的 值 构造 了 一 个 SET ( 集合 ) 对 象 ; 

口 判定 一 个 给 定 的 值 是 否 存在 于 该 集合 中 。 

这 些 操作 封装 在 StaticSETofInts 抽象 数据 类 型 中 ， 和 Whitelist 用 例 一 起 显示 在 表 1.2.15 中 。 
StaticSETofInts 是 更 一 般 也 更 有 用 的 符号 表 抽象 数据 类 型 的 一 种 特殊 情况 ， 符 号 表 抽 象 数据 类 
型 将 是 第 3 章 的 重点 。 在 我 们 研究 过 的 所 有 算法 中 ， 二 分 查找 是 较为 适合 用 于 实现 这 些 抽象 数据 类 
型 的 一 种 。 和 1.1.10 节 中 的 BinarySearch 实现 比较 起 来 ， 这 里 的 实现 所 产生 的 用 例 代 码 更 加 清晰 和 
高 效 。 例 如 ，StaticSETofInts 强制 要 求 数组 在 rank( 方法 被 调用 之 前 排序 。 有 了 抽象 数据 类 型 
我 们 可 以 将 抽象 数据 类 型 的 调用 和 实现 区 分 开 来 ， 并 确保 任意 遵守 API 的 用 例 程 序 都 能 受益 于 二 分 
查找 算法 ( 使 用 BinarySearch 的 程序 在 调用 rankQ 之 前 必须 能 够 将 数组 排序 ) 。 白 名 单 应 用 是 众 
多 二 分 查找 算法 的 用 例 之 一 。 

每 个 Java 程序 都 是 一 组 静态 方法 和 (或 ) 一 种 “应 用 
数据 类 型 的 实现 的 集合 。 在 本 书 中 我 们 主要 关注 的 是 % java Whitelist largeW.txt < 


抽象 数 据 关 型 的 实现 中 的 操作 和 向 用 例 隐 蕊 其 中 的 数 。 argeT: xr 


据 表示 , 例如 StaticSETofInts。 正 如 这 个 例子 所 示 ， 984875 
数据 抽象 使 我 们 能 够 : 2 
口 准确 定义 算法 能 为 用 例 提供 什么 ; 140925 
口 隔离 算法 的 实现 和 用 例 的 代码 ; 8 


日 实现 多 层 抽象 ， 用 已 知 算法 实现 其 他 算法 。 


表 1.2.15 将 二 分 查找 重 写 为 一 段 面向 对 象 的 程序 《用 于 在 整数 集合 中 进行 查找 的 一 种 抽象 数据 类 型 ) 
API public class StaticSETofInts 
StaticSETofInts(int[] a) 根据 a[] 中 的 所 有 值 创建 一 个 集合 
boolean contains(int key) key 是 否 存在 于 集合 中 








四 
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( 续 ) 





典型 的 用 例 
public class Whitelist 


public static void main(String[] args) 
{ 


int[] w = In.readInts(args[0]); 
StaticSETofInts set = new StaticSETofInts(w); 
while C!StdIn.isEmpty()) 
{ // 读 取 键 如 果 不 在 白 名 单 中 则 打印 它 
int key = StdIn.readInt(); 
if (!set.contains(key)) 
StdOut .printlnCkey); 





数据 类 型 的 实现 
import java.util.Arrays; 
public class StaticSETofInts 
{ 
private int[] a; 
public StaticSETofInts(int[] keys) 
{ 
a = new int[keys.length]; 
for (int i = 0; i < keys.length; i++) 
a[i] = keys[i]; // 保护 性 复制 
Arrays. sort(a); 


public boolean contains(int key) 
{ return rank(key) != -1; 
private int rank(int key) 
人 { // 二 分 查找 
int lo = 0; 
int hi = a.length - 1; 
while (lo <= hi) 
萎 // 键 要 么 存在 于 a[10. .hi] 中 ,要么 不 存在 
int mid = lo + (hi - 10) / 2; 
if (key < a[mid]) hi = mid - 1; 
else if (key > a[mid]) 1o = mid + 1; 
else return mid; 
return -1; 





无 论 是 使 用 自然 语言 还 是 伪 代 码 描述 算法 ， 这 些 都 是 我 们 所 希望 拥有 的 性 质 。 使 用 Java 的 类 
机 制 来 支持 数据 的 抽象 将 使 我 们 收获 良 多 : 我 们 编写 的 代码 将 能 够 测试 算法 并 比较 各 种 用 例 程序 的 
性 能 。 
1.2.5.4 ”接口 继承 

Java 语言 为 定义 对 象 之 间 的 关系 提供 了 支持 ， 称 为 接口 。 程 序 员 广泛 使 用 这 些 机 制 ， 如 果 上 过 
软件 工程 的 课程 那么 你 可 以 详细 地 研究 一 下 它们 。 我 们 学 习 的 第 一 种 继承 机 制 叫 做 子 类 型 。 它 允许 
我 们 通过 指定 一 个 含有 一 组 公共 方法 的 接口 为 两 个 本 来 并 没有 关系 的 类 建立 一 种 联系 ， 这 两 个 类 都 
必须 实现 这 些 方法 。 例 如 ， 如 果 不 使 用 我 们 的 非 正式 API， 也 可 以 为 Date 声明 一 个 接口 : 


1.2 数据 抽象 可 63 


public interface Datable 

下 
int_monthO; 
int dayO; 
int yearO; 


了 
并 在 我 们 的 实现 中 引用 该 接口 : 


public class Date implements Datable 


// 实现 代码 (和 以 前 一 样 ) 


这 样 ，Java 编译 器 就 会 检查 该 实现 是 否 和 接口 相符 。 为 任意 实现 了 month()、dayQ) 和 
year() 的 类 添加 implements Datable 保证 了 所 有 用 例 都 能 用 该 类 的 对 象 调 用 这 些 方法 。 这 种 方 
式 称 为 接口 继承 一 一 实现 类 继承 的 是 接口 。 接 口 继承 使 得 我 们 的 程序 能 够 通过 调用 接口 中 的 方法 操 
作 实 现 该 接口 的 任意 类 型 的 对 象 ( 甚至 是 还 未 被 创建 的 类 型 ) 。 我 们 可 以 在 更 多 非 正式 的 API 中 使 
“用 接口 继承 ， 但 为 了 避免 代码 依赖 于 和 理解 算法 无 关 的 高 级 语言 特性 以 及 额外 的 接口 文件 ， 我 们 并 [109] 
… 没 有 这 么 做 。 在 某 些 情况 下 Java 的 习惯 用 法 鼓励 我 们 使 用 接口 我们 用 它们 进行 比较 和 迭代 ， 如 表 
1.2.16 所 示 。 我 们 会 在 接触 那些 概念 时 再 详细 研究 它们 。 


表 1.2.16 本 书 中 所 用 到 的 Java 接口 











名 BA 方 法 A 
i java. lang. Comparable 5 compareToC) 24 
java.util .Comparator compare() 25 
java. lang, Iterable 3 iterator() 13 
hasNext() 
这 代 java.uti1.Iterator nextO ti 
remove() 
1.2.5.5 ”实现 继承 : 


” Java 还 支持 另 一 种 继承 机 制 ， 被 称 为 子 类 。 这 种 非常 强大 的 技术 使 程序 员 不 需要 重 写 整个 类 就 
能 改变 它 的 行为 或 者 为 它 添加 新 的 功能 。 它 的 主要 思想 是 定义 一 个 新 类 ( 子 类 ， 或 称 为 派生 类 ) 来 
继承 另 一 个 类 ( 父 类 , 或 称 为 基 类 ) 的 所 有 实例 方法 和 实例 变量 。 子 类 包含 的 方法 比 父 类 更 多 。 另 外，.- 
子 类 可 以 重新 定义 或 者 重 写 父 类 的 方法 。 子 类 继承 被 系统 程序 员 广泛 用 于 编写 所 谓 可 扩展 的 库 -- 一 
任何 一 个 程序 员 ( 包括 你 ) 都 能 为 另 一 个 程序 员 (或 者 也 许 是 一 个 系统 程序 员 团队 ) 创建 的 库 添加 
方法 。 这 种 方法 能 够 有 效 地 重用 潜在 的 十 分 庞大 的 库 中 的 代码 。 例 如 ， 这 种 方法 被 广泛 用 于 图 形 用 
户 界面 的 开发 ， 因 此 实现 用 户 所 需要 的 各 种 控件 ( 下拉 菜 单 ， 剪 切 一 精 贴 ， 文 件 访问 等 ) 的 大 量 代 
码 都 能 够 被 重用 。 子 类 继承 的 使 用 在 系统 程序 员 和 应 用 程序 员 之 间 是 有 争议 的 ( 它 和 接口 继承 之 间 
的 优 劣 还 没有 定论 ) 。 在 本 书 中 我 们 会 避免 使 用 它 ， 因 为 它 会 破坏 封装 。 但 这 种 机 制 是 Java 的 一 
部 分 ， 因 此 它 的 残余 是 无 法 避免 的 : 具体 来 说 ， 每 个 类 都 是 Java 的 Object 类 的 子 类 。 这 种 结构 意 
味 着 每 个 类 都 含有 getClass()、toString()、equals()、hashCode() ( 见 表 1.2.17 ) 和 另外 几 
个 我 们 不 会 在 本 书 中 用 到 的 方法 的 实现 。 实 际 上 ， 每 个 类 都 通过 子 类 继承 从 Object 类 中 继承 了 这 
些 方法 ， 因 此 任何 用 例 都 可 以 在 任意 对 象 中 调用 这 些 方法 。 我 们 通常 会 重 载 新 类 的 toString() 、 
equals() 和 hashCodeQ 〇 方法 ， 因 为 Object 类 的 默认 实现 一 般 无 法 提供 所 需 的 行为 。 接 下 来 我 们 
将 讨论 toString() 和 equals()， 在 3.4 节 中 讨论 hashCodeC。 
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表 1.2.17 本 书 中 所 使 用 的 由 Object 类 继承 得 到 的 方法 








= 本 二 天 5 作 用 章 节 
Class getClassO 2 该 对 象 的 类 是 什么 12 
String toStringO .。 该 对 象 的 字符 申 表 示 i 
boolean equals(Object that) 一 该 对 象 是 否 和 that 相等 12 

int hashCodeO 该 对 象 的 散 列 值 34 记 
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1.2.5.6 “字符 串 表示 的 习惯 

按照 习惯 ， 每 个 Java 类 型 都 会 从 0bject 继承 toString() 方法 ， 因 此 任何 用 例 都 能 够 调 
用 任意 对 象 的 toString() 方法 。 当 连接 运算 符 的 一 个 操作 数 是 字符 串 时 ，Java 会 自动 将 另 一 个 
操作 数 也 转换 为 字符 串 ， 这 个 约定 是 这 种 自动 转换 的 基础 。 如 果 一 个 对 象 的 数据 类 型 没有 实现 
tosString() 方法 ， 那 么 转换 会 调用 0bejct 的 默认 实现 。 默 认 实 现 一 般 都 没有 多 大 实用 价值 ， 因 
为 它 只 会 返回 一 个 含有 该 对 象 内 存 地 址 的 字符 串 。 因 此 我 们 通常 会 为 我 们 的 每 个 类 实现 并 重 写 默认 
的 toString() 方法 ， 如 下 面 代码 框 的 Date 类 中 加 粗 的 部 分 所 示 。 由 代码 可 以 看 到 ，toString() 
方法 的 实现 通常 很 简单 ， 只 需 隐 式 调用 ( 通过 + ) 每 个 实例 变量 的 ee 方法 即 可 。 
1.2.5.7 封装 类 型 

Java 提供 了 一 些 内 置 的 引用 类 型 , 称 为 封装 类 型 。 每 种 原始 数据 类 型 都 有 一 个 对 应 的 封装 类 型 ; 
Boolean、Byte、Character、Double、Float 、Integer 、Long 和 Short 分 别 对 应 着 boolean、 
byte、char、double、float 、int、1long 和 short。 这 些 类 主要 由 类 似 于 parseInt() 这 样 的 
静态 方法 组 成 ， 但 它们 也 含有 继承 得 到 的 实例 方法 tostring()、compareTo()、equals() 和 
hashCode()。 在 需要 的 时 候 Java 会 自动 将 原始 数据 类 型 转换 为 封装 类 型 ， 如 1.3.1.1 节 所 述 。 例 如 ， 
当 一 个 int 值 需要 和 一 个 String 连接 时 ， 它 的 类 型 会 被 转换 为 Integer 并 触发 toString() 方法 。 
1.2.5.8 等 价 性 

两 个 对 象 相等 意味 着 什么 ?如 果 我 们 用 相同 类 型 的 两 个 引用 变量 a 和 b 进行 等 价 性 测试 (a == 
b ) , 我 们 检测 的 是 它们 的 标识 是 否 相同 , 即 引用 是 否 相同 。 一 般 用 例 希望 能 够 检查 数据 类 型 的 值 ( 对 
象 的 状态 ) 是 否 相同 或 者 实现 某 种 针对 该 类 型 的 规则 。Java 为 我 们 开 了 个 头 ， 为 Integer 、Double 
和 String 等 标准 数据 类 型 以 及 一 些 如 File 和 URL 的 复杂 数据 类 型 提供 了 实现 。 在 处 理 这 些 类 型 
的 数据 时 ， 可 以 直接 使 用 内 置 的 实现 。 例 如 ， 如 果 x 和 y 均 为 String 类 型 的 值 ， 那 么 当 且 仅 当 x 
和 yy 的 长 度 相同 且 每 个 位 置 的 字符 均 相 同时 x.equals(y) 的 返回 值 为 true。 当 我 们 在 定义 自己 的 
数据 类 型 时 ， 比 如 Date 或 Transaction， 需 要 重 载 equals() 方法 。Java 约定 equals() 必须 是 
一 种 等 价 性 关系 。 它 必须 具有 : 

口 自 反 性 ，x.equals (x) 为 true; 

口 对 称 性 ， 当 且 仅 当 y.equals(x) 为 true 时 ，x.equals(y) 返回 true; 

口 传递 性 ， 如 果 x-equals(y) 和 y.equals(z) 均 为 true，x.equals(z) 也 将 为 true。 

另外 ， 它 必须 接受 一 个 Object 为 参数 并 满足 以 下 性 质 : 

口 一 致 性 ， 当 两 个 对 象 均 未 被 修改 时 ， 反 复 调用 x.equals(y) 总 是 会 返回 相同 的 值 ; 

口 非 室 性 ，x.equals(nu11) 总 是 返回 false。 

这 些 定义 都 是 自然 合理 的 ， 但 确保 这 些 性 质 成 立 并 遵守 Java 的 约定 ， 同 时 又 避免 在 实现 时 做 无 
用 功 却 并 不 容易 ， 如 Date 所 示 。 它 通过 以 下 步 又 做 到 了 这 一 点 。 
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口 如 果 该 对 象 的 引用 和 参数 对 象 的 引用 相同 ， 返 回 true。 这 项 测试 在 成 立时 能 够 免 去 其 他 所 
有 测试 工作 。 

口 如 果 参 数 为 空 (nu11 ) ,根据 约定 返回 false ( 还 可 以 避免 在 下 面 的 代码 中 使 用 空 引用 ) 。 

口 如 果 两 个 对 象 的 类 不 同 ， 返 回 false。 要 得 到 一 个 对 象 的 类 ， 可 以 使 用 getClass() 方法 。 
请 注意 我 们 会 使 用 = 来 判断 Class 类 型 的 对 象 是 否 相等 ， 因 为 同一 种 类 型 的 所 有 对 象 的 
getClass() 方法 一 定 能 够 返回 相同 的 引用 。 

口 将 参数 对 象 的 类 型 从 Object 转换 到 Date ( 因为 前 一 项 测试 已 经 通过 , 这 种 转换 必然 成 功 ) 。 

口 如 果 任 意 实例 变量 的 值 不 相同 , 返回 false。 对 于 其 他 类 , 等 价 性 测试 方法 的 定义 可 能 不 同 。 
例如 ， 我 们 只 有 在 两 个 Counter 对 象 的 count 变量 相等 时 才 会 认为 它们 相等 。 


public class Date 
{ 
private final int month; 
private final int day; 
private final int year; 
public Date(int m, int d, int y) 
{ month = m; day = di year = y; } 
public int month() 
{ return month; 上 


public int dayO 
{ return day; } 


public int year() 
{ return year; } 


public String toString() 
{ return monthQO + "/” + day() + "/" + yearO; } 


public boolean equals(Object x) 
{ 


if (this == x) return true; 

if (x == nu11) return false; 

if (this.getClass() != x.getClass()) return false; 
Date that = (Date) x; 5 


if (this.day != that.day) return false; 
if (this.month != that.month) return false; 
if (this.year != that.year) return false; 
return true; 后 

} 


在 数据 类 型 的 定义 中 重 写 toString() 和 equals 〇 方法 


你 可 以 使 用 上 面 的 实现 作为 实现 任意 数据 类 型 的 equalsQ 〇 方法 的 模板 。 只 要 实现 一 次 
equals() 方法 ， 下 一 次 就 不 会 那么 困难 了 。 
1.2.5.9 ”内存 管理 区 
我 们 可 以 为 一 个 引用 变量 赋予 一 个 新 的 值 ， 因 此 一 段 程序 可 能 会 产生 一 个 无 法 被 引用 的 对 象 。 
例如 ， 请 看 图 1.2.9 中 所 示 的 三 行 赋值 语句 。 在 第 三 行 赋值 语句 之 后 ， 不 仅 a 和 b 会 指向 同一 个 
Date 对 象 ( 1/1/2011 ) ， 而 且 不 存在 能 够 引用 初始 化 变量 b 的 那个 Date 对 象 的 引用 了 。 本 来 该 对 
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象 的 唯一 引用 就 是 变量 b， 但 是 该 引用 被 赋值 语句 覆盖 bee Ee EE 
了 ,这样 的 对 象 被 称 为 孤儿 。 对 象 在 离开 作用 域 之 后 也 。 a = b; I > 
会 变 成 孤儿 。Java 程序 经 常会 创建 大 量 对 象 ( 以 及 许多 
保存 原始 数据 类 型 值 的 变量 ) ， 但 在 某 个 时 刻 程序 只 会 
需要 它们 之 中 的 一 小 部 分 。 因 此 ， 编 程 语言 和 系统 需要 
某 种 机 制 来 在 必要 时 为 数据 类 型 的 值 分 配 内 存 ， 而 在 不 ee 
需要 时 释放 它们 的 内 存 (对 于 一 个 对 象 来 说 ， 有 时 是 在 
它 变 成 孤儿 之 后 ) 。 内 存 管理 对 于 原始 数据 类 型 更 容易 ， 
因为 内 存 分 配 所 需要 的 所 有 信息 在 编译 阶段 就 能 够 获取 。 
Java ( 以 及 大 多 数 其 他 系统 ) 会 在 声明 变量 时 为 它们 预 留 和 
内 存 空 间 ， 并 会 在 它们 离开 作用 域 后 释放 这 些 空间 。 对 EF 

1999.12.31 


象 的 内 存 管理 更 加 复杂 系统 会 在 创建 一 个 对 象 时 为 它 
分 配 内 存 ， 但 是 程序 在 执行 时 的 动态 性 决定 了 一 个 对 象 
何 时 才 会 变 为 孤儿 ， 系 统 并 不 能 准确 地 知道 应 该 何 时 释 
放 一 个 对 象 的 内 存 。 在 许多 语言 中 (例如 C 和 C++) ， sa 上 | 

分 配 和 释放 内 存 是 程序 员 的 责任 。 众 所 周知 ,这 种 操作 ”812 [| Fn 
既 繁 融 又 容易 出 错 。Java 最 重要 的 一 个 特性 就 是 自动 内 813 

存 管理 。 它 通过 记录 孤儿 对 象 并 将 它们 的 内 存 释放 到 内 





存 池 中 将 程序 员 从 管理 内 存 的 责任 中 解放 出 来 。 这 种 回 Eo 

收 内 存 的 方式 叫做 垃圾 回收 。Java 的 一 个 特点 就 是 它 不 

允许 修改 引用 的 策略 。 这 种 策略 使 Java 能 够 高 效 自动 地 时 29 名 放 对 铺 

回收 垃圾 。 程 序 员 们 至 今 仍 在 争论 ， 为 获得 无 需 为 内 存 管理 操心 的 方便 而 付出 的 使 用 自动 垃圾 回收 
的 代价 是 否 值得 。 

1.2.5.10 不 可 变性 


不 可 变数 据 类 型 ， 例 如 Date， 指 的 是 该 类 型 的 对 象 中 的 值 在 创建 之 后 就 无 法 再 被 改变 。 与 此 
相反 ， 可 变数 据 类 型 ， 例 如 Counter 或 Accumu1ator， 能 够 操作 并 改变 对 象 中 的 值 。Java 语言 通 
过 final 修饰 符 来 强制 保证 不 可 变性 。 当 你 将 一 个 变量 声明 为 final 时 ， 也 就 保证 了 只 会 对 它 赋 
值 一 次 ， 可 以 用 赋值 语句 ， 也 可 以 用 构造 函数 。 试 图 改变 final 变量 的 值 的 代码 将 会 产生 一 个 编译 
时 错误 。 在 我 们 的 代码 中 ,我 们 用 final 修饰 值 不 会 改变 的 实例 变量 。 这 种 策略 就 像 文档 一 样 ， 说 
明了 这 个 变量 的 值 不 会 再 发 生 改变 ， 它 能 够 预防 意外 修改 ， 也 能 使 程序 的 调试 更 加 简单 。 像 Date 
这 样 实例 变量 均 为 原始 数据 类 型 且 被 final 修饰 的 数据 类 型 ( 按照 约定 ， 在 不 使 用 子 类 继承 的 代码 
中 ) 是 不 可 变 的 。 数 据 类 型 是 否 可 变 是 一 个 重要 的 设计 决策 ， 它 取决 于 当前 的 应 用 场景 。 对 于 类 似 
于 Date 的 数据 类 型 ， 抽 象 的 目的 是 封装 不 变 的 值 ， 以 便 将 其 和 原始 数据 类 型 一 样 用 于 赋值 语句 、 
作为 函数 的 参数 或 返回 值 ( 而 不 必 担心 它们 的 值 会 被 改变 ) 。 程 序 员 在 使 用 Date 时 可 能 会 写 出 操 
作 两 个 Date 类 型 的 变量 的 代码 d = d0， 就 像 操 作 double 或 者 int 值 一 样 。 但 如 果 Date 类 型 是 
可 变 的 上 且 d 的 值 在 d = d0 之 后 可 以 被 改变 ， 那 么 d0 的 值 也 会 被 改变 ( 它们 都 是 指向 同一 个 对 象 
的 引用 ) ! 从 另 一 方面 来 说 ， 对 于 类 似 于 Counter 和 Accumulator 的 数据 类 型 ， 抽 象 的 目的 是 封 
装 变化 中 的 值 。 作 为 用 例 程 序 员 ， 你 在 使 用 Java 数组 ( 可 变 ) 和 Java 的 String 类 型 (不 可 变 ) 时 
就 已 经 遇 到 了 这 种 区 别 。 将 一 个 String 传递 给 一 个 方法 时 ， 你 不 会 担心 该 方法 会 改变 字符 串 中 的 
字符 顺序 ， 但 当 你 把 一 个 数组 传递 给 一 个 方法 时 ， 方 法 可 以 自由 改变 数组 的 内 容 。String 对 象 是 


不 可 变 的， 因为 我 们 一 般 都 不 希望 String 的 值 改 变 ， 而 Java 数组 是 可 变 的 ， 因 为 我 们 一 般 的 确 希 
望 改变 数组 中 的 值 。 但 也 存在 我 们 希望 使 用 可 变 字符 串 (这 就 是 Java 的 StringBuilder 类 存在 的 
目的 ) 和 不 可 变数 组 ( 这 就 是 稍 后 讨论 的 Vector 类 存在 的 目的 ) 的 情况 。 一 般 来 说 ， 不 可 变 的 数 
据 类 型 比 可 变 的 数据 类 型 使 用 更 容易 ， 误 用 更 困难 ， 因 为 能 够 改变 它们 的 值 的 方式 要 少 得 多 。 调 试 
使 用 不 可 变 类 型 的 代码 更 简单 ， 因 为 我 们 更 容易 确保 用 例 代码 中 使 用 它们 的 变量 的 状态 前 后 一 致 。 
在 使 用 可 变数 据 类 型 时 ， 必 须 时 刻 关注 它们 的 值 会 在 何 时 何 地 发 生变 化 。 而 不 可 变性 的 缺点 在 于 我 
“ 们 需要 为 每 个 值 创 建 一 个 新 对 象 。 这 种 开销 一 般 是 可 以 接受 的 ， 因 为 Java 的 垃圾 回收 器 通常 都 为 此 
进行 了 优化 。 不 可 变性 的 另 一 个 缺点 在 于 ，final 非常 不 幸 地 只 能 用 来 保证 原始 数据 类 型 的 实例 变 
量 的 不 可 变性 ， 而 无 法 用 于 引用 类 型 的 变量 。 如 果 一 个 应 用 类 型 的 实例 变量 含有 修饰 符 final， 该 
实例 变量 的 值 ( 某 个 对 象 的 引用 ) 就 永远 无 法 改变 了 一 一 它 将 永远 指向 同一 个 对 象 ， 但 对 象 的 值 本 
身 仍然 是 可 变 的 。 例 如 ， 这 段 代码 并 没有 实现 一 个 不 可 变 的 数据 类 型 ， 


public class Vector 


private final double[] coords; 
public Vector(double[] a) 
{ coords = ai } 
} 
用 例 程 序 可 以 通过 给 定 的 数组 创建 一 个 Vector 对 象 ， 并 在 构造 函数 执行 之 后 ( 绕 过 API) 改 
变 Vector 中 的 元 素 的 值 : 


double[] a = { 3.0, 4.0 }; 
-Vector vector ~ new Vector(a); 
a[0] = 0.0; // 绕 过 了 公有 API 


实例 变量 coords[] 是 private 和 final 的 ， 但 Vector 是 可 变 的 ， 因 为 用 例 拥 有 指向 数据 
的 一 个 引用 。 任何 数据 类 型 的 设计 都 需要 考虑 到 不 可 变性 ， 而 且 数据 类 型 是 否 是 不 可 变 的 则 应 该 在 
API 中 说 明 ， 这 样 使 用 者 才能 知道 该 对 象 中 的 值 是 无 法 
改变 的 。 在 本 书 中 ,我们 对 不 可 变性 的 主要 兴趣 在 于 用 。“ 表 1.2.18， 可 变 与 不 可 变数 据 类 型 举例 
它 保证 我 们 的 算法 的 正确 性 。 例 如 ， 如 果 一 个 二 分 查找 。“” 末 变 数据 类 型 ”不 可 变数 据 类 型 


.算法 所 使 用 的 数据 的 类 型 是 可 变 的 ， 那 么 算法 的 用 例 就 Counter Date 

可 能 破坏 我 们 对 二 分 查找 中 的 数组 已 经 有 序 的 假设 。 可 2 String _ 
变数 据 与 不 可 变数 据 的 示例 见 表 1.2.18。 

1.2.5.11 “契约 式 设计 


在 最 后 ， 我 们 将 简要 讨论 Java 语言 中 能 够 在 程序 运行 时 检验 程序 状态 的 一 些 机 制 。 为 此 我 们 将 
使 用 两 种 Java 的 语言 特性 : 

口 异常 (Exception ) ,一般 用 于 处 理 不 受 我 们 控制 的 不 可 预见 的 错误 ; 

口 断言 (Assertion ) ， 验 证 我 们 在 代码 中 做 出 的 一 些 假设 。 


大 量 使 用 异常 和 断言 是 很 好 的 编程 实践 。 为 了 节约 版 面 我 们 在 本 书 中 极 少 使 用 它们 ， 但 你 在 本 


” 书 网 站 上 的 所 有 代码 中 都 会 找到 它们 。 ed 全 人 村 合作 
- 围 都 有 大 量 的 注释 - 
1.2.5.12 “异常 与 错误 
弄 常 和 错误 都 是 在 程序 运行 中 出 现 的 破坏 性 事件 。Java 采 取 的 行动 称 为 抛 出 和 异常 或 是 
抛 出 错误 。 我 们 已 经 在 学 习 Java 的 基本 特性 的 过 程 中 遇 到 过 Java 系统 方法 抛 出 的 异常 : 
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StackOverflowError 、ArithmeticException、ArrayIndexOutOfBoundsException 、 
OutOfMemoryError 和 Nu11PointerException 都 是 典型 的 例子 。 你 也 可 以 创建 自己 的 异常 ， 最 简 
单 的 一 种 是 RuntimeException， 它 会 中 断 程序 的 执行 并 打印 出 一 条 出 错 信息 : 

throw new RuntimeException("Error message here.”"); 

一 种 叫做 快速 出 错 的 常规 编程 实践 提倡 , 一 旦 出 错 就 立刻 抛 出 异常 , 使 定位 出 错位 置 更 容易 ( 这 
和 忽略 错误 并 将 异常 推迟 到 以 后 处 理 的 方式 相反 ) 。 
1.2.5.13 断言 

断言 是 一 条 需要 在 程序 的 某 处 确认 为 true 的 布尔 表达 式 。 如 果 表 达 式 的 值 为 false， 程 序 
将 会 终止 并 报告 一 条 出 错 信息 。 我 们 使 用 断言 来 确定 程序 的 正确 性 并 记录 我 们 的 意图 。 例 如 ， 假 
设 你 计算 得 到 一 个 值 并 可 以 将 它 作为 索引 访问 一 个 数组 。 如 果 该 值 为 负数 ， 稍 后 它 将 会 产生 一 条 
ArrayIndexOutOfBoundsException 异常 。 但 如 果 代 码 中 有 一 句 assert index >= 0;， 你 就 能 
找到 出 错 的 位 置 。 还 可 以 选择 性 地 加 上 一 条 详细 的 消息 来 辅助 定位 bug， 例 如 : 

assert index >= 0 : "Negative index in method X"; 

默认 设置 没有 启用 断言 ,可 以 在 命令 行 下 使 用 -enableassertions 标 志 ( 简写 为 ea) 启用 断言 。 
断言 的 作用 是 调试 : 程序 在 正常 操作 中 不 应 该 依赖 断言 ， 因 为 它们 可 能 会 被 禁用 。 系 统 编程 课程 会 
学 习 使 用 断言 来 保证 代码 永远 不 会 被 系统 错误 终止 或 是 进入 死 循 环 。 一 种 叫做 契约 式 设计 的 编程 模 
型 采用 的 就 是 这 种 思想 。 数 据 类 型 的 设计 者 需要 说 明 前 提 条 件 ( 用 例 在 调用 某 个 方法 前 必须 满足 的 
条 件 ) 、 后 置 条 件 ( 实现 在 方法 返回 时 必须 达到 的 要 求 ) 和 副作用 (方法 可 能 对 对 象 状态 产生 的 任 
何其 他 变更 ) 。 在 开发 过 程 中 ， 这 些 条 件 可 以 用 断言 进行 测试 。 
1.2.5.14 小结 

本 节 所 讨论 的 语言 机 制 说 明 实用 数据 类 型 的 设计 中 所 过 到 的 问题 并 不 容易 解决 。 专 家 们 仍然 在 
讨论 支持 某 些 我 们 已 经 学 习 过 的 设计 理念 的 最 佳 方法 。 为 什么 Java 不 允许 将 函数 作为 参数 ? 为 什么 
Matlab 会 复制 作为 参数 传递 给 函数 的 数组 ?正如 本 章 前 文 所 述 ， 如 果 你 总 是 抱怨 编程 语言 的 特性 ， 
那么 你 只 能 自己 设计 编程 语言 了 。 如 果 你 不 希望 这 样 ， 最 好 的 策略 就 是 使 用 应 用 最 广泛 的 编程 语言 。 
大 多 数 系统 都 含有 大 量 的 库 ， 在 适当 的 时 候 你 应 该 能 用 到 它们 ， 但 通常 你 都 能 够 通过 构造 易于 移植 
到 其 他 编程 语言 的 抽象 层 来 简化 用 例 代码 并 进行 自我 保护 。 设 计数 据 类 型 是 你 的 主要 目标 ， 从 而 使 
大 多 数 工作 都 能 在 抽象 层次 完成 ， 且 和 手头 的 问题 匹配 。 

表 1.2.19 总 结 了 我 们 讨论 过 的 各 种 Java 类 。 


表 1.2.19 Java 类 (数据 类 型 的 实现 ) 








类 的 类 别 举 例 特 点 
静态 方法 Math StdIn StdOut 没有 实例 变量 
不 可 变 的 抽象 数据 类 型 Date Transaction String Integer ”实例 变量 均 为 private 
实例 变量 均 为 final 
保护 性 复制 引用 类 型 数据 
注意 : 这 些 都 是 必要 但 不 充分 条 件 
可 变 的 抽象 数据 类 型 Counter Accumulator 实例 变量 均 为 private 


并 非 所 有 实例 变量 均 为 fina1 


具有 IO 副作用 的 抽象 数据 类 型 ”VisualAccumulator In Out Draw 实例 变量 均 为 private 


实例 方法 会 处 理 VO 
一 
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问 
答 
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为 什么 要 使 用 数据 抽象 ? 

它 能 够 帮助 我 们 编写 可 靠 而 正确 的 代码 。 例 如 ， 在 2000 年 的 美国 总 统 竞选 中 ，Al Gore 在 弗 罗 里 达 
州 的 Volusia 县 的 一 个 电子 计 票 机 上 得 到 了 -16022 张 选 票 一 一 显然 电子 计 票 机 软件 中 的 选票 计数 器 
的 封装 不 正确 ! 

为 什么 要 区 别 原始 数据 类 型 和 引用 类 型 ? 为 什么 不 只 用 引用 类 型 ? 

因为 性 能 。Java 提供 了 Integer 、Double 等 和 原始 数据 类 型 对 应 的 引用 类 型 ， 以 供 希 望 忽略 这 些 类 
型 的 区 别 的 程序 员 使 用 。 原 始 数据 类 型 更 接近 计算 机 硬件 所 支持 的 数据 类 型 ， 因 此 使 用 它们 的 程序 
比 使 用 引用 类 型 的 程序 运行 得 更 快 。 

数据 类 型 必须 是 抽象 的 吗 ? 

不 。Java 也 支持 pub1ic 和 protected 来 帮助 用 例 直 接 访问 实例 变量 。 如 正文 所 述 ， 人 允许 用 例 代码 
直接 访问 数据 所 带 来 的 好 处 比 不 上 对 数据 的 特定 表示 方式 的 依赖 所 带 来 的 坏处 ， 因 此 我 们 代码 中 所 
有 的 实例 变量 都 是 私有 的 ( private ) ， 有 时 也 会 使 用 私有 实例 方法 在 公有 方法 之 间 共享 代码 。 

如 果 我 在 创建 一 个 对 象 时 忘记 使 用 new 关键 字 会 发 生 什么 ? 

对 于 Java， 这 种 代码 看 起 来 就 好 像 你 希望 调用 一 个 静态 方法 ， 却 得 到 一 个 对 象 类 型 的 返回 值 。 因 为 
并 没有 定义 这 样 一 个 方法 ,你 得 到 的 错误 信息 和 引用 一 个 未 定义 的 符号 是 一 样 的 。 如 果 编 译 这 段 代码 , 
Counter c = Counter("test"); 

会 得 到 这 条 错误 信息 : Er 


cannot find symbol 5， 
symbol : method Counter(String) > 


如 果 你 提供 给 构造 函数 的 参数 数量 不 对 ， 也 会 得 到 相同 的 出 错 信息 。 

如 果 我 在 创建 一 个 对 象 数组 时 忘记 使 用 new 关键 字 会 发 生 什么 ? 

创建 每 个 对 象 都 需要 使 用 new， 所 以 要 创建 一 个 含 及 个 对 象 的 数组 , 需要 使 用 N+1 次 new 关键 字 : 
创建 数组 需要 一 次 ， 创 建 每 个 对 象 各 需要 一 次 。 如 果 忘 了 创建 数组 : 


Counter[] a; 
a[0] = new Counter("test"); 


你 得 到 的 错误 信息 和 尝试 为 一 个 未 初始 化 的 变量 赋值 是 一 样 的 : 


variable a might not have been initialized 
a[0] = new Counter("test"); 
: 


但 如 果 在 创建 数组 中 的 一 个 对 象 时 忘 了 使 用 new， 然 后 又 尝试 调用 它 的 方法 ， 会 得 到 一 个 
Nu11PointerException: 


Counter[] a = new Counter[2]; 
a[0] .incrementO; 


为 什么 不 用 Stdout .println(x.tostringO) 来 打印 对 象 ? 

这 条 语句 也 可 以 ， 但 Java 能 够 自动 调用 任意 对 象 的 toString() 方法 来 帮 我 们 省 去 这 些 麻烦 ， 因 为 
print1n() 接受 的 参数 是 一 个 Object 对 象 。 

指针 是 什么 ? 

问 得 好 。 或 许 上 面 那 个 异常 应 该 叫做 Nu11ReferenceException。 和 Java 的 引用 一 样 ， 可 以 把 指 
针 看 做 机 器 地 址 。 在 许多 编程 语言 中 ， 指 针 是 一 种 原始 数据 类 型 ， 程 序 员 可 以 用 各 种 方法 操作 它 。 
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但 众所周知 ， 指 针 的 编程 非常 容易 出 错 ， 因 此 需要 精心 设计 指针 类 的 操作 以 帮助 程序 员 避 免 错 误 。 
Java 将 这 种 观点 发 挥 到 了 极致 (许多 主流 编程 语言 的 设计 者 也 赞同 这 种 做 法 ) 。 在 Java 中 ， 创 建 引 
用 的 方法 只 有 一 种 (new ) ， 且 改变 引用 的 方法 也 只 有 一 种 ( 赋值 语句 ) 。 也 就 是 说 ， 程 序 员 能 对 引 
用 进行 的 操作 只 有 创建 和 复制 。 在 编程 语言 的 行 话 里 ，Java 的 引用 被 称 为 安全 指针 ， 因 为 Java 能 够 
保证 每 个 引用 都 会 指向 某 种 类 型 的 对 象 ( 而 且 它 能 找 出 无 用 的 对 象 并 将 其 回收 ) 。 习 惯 于 编写 直接 
操作 指针 的 程序 员 认 为 Java 完全 没有 指针 ， 但 人 们 仍 在 为 是 否 真 的 需要 不 安全 的 指针 而 争论 。 

我 在 哪里 能 够 找到 Java 如 何 实现 引用 和 进行 垃圾 收集 的 细节 ? 

Java 系统 的 实现 各 有 不 同 。 例 如 ， 实 现 引用 的 一 种 自然 方式 是 使 用 指针 ( 机 器 地 址 ) ;而 另 一 种 使 
用 的 则 可 能 是 勿 柄 ( 指针 的 指针 ) 。 前 者 访问 数据 的 速度 更 快 ,而 后 者 则 能 够 更 好 地 实现 垃圾 回收 。 
导入 (import ) 一 个 对 象 名 意味 着 什么 ? 

没什么 ， 只 是 可 以 少 打 一 些 字 。 如 果 不 想 使 用 import 语句 ， 你 也 可 以 在 代码 中 用 java.uti1. 
Arrays 代替 所 有 的 Arrays。 

实现 继承 有 什么 问题 ? 

子 类 继承 阻碍 模块 化 编程 的 原因 有 两 点 。 第 一 ， 父 类 的 任何 改动 都 会 影响 它 的 所 有 子 类 。 子 类 的 开 
发 不 可 能 和 父 类 无 关 。 事 实 上 , 子 类 是 完全 依赖 于 父 类 的 。 这 种 问题 被 称 为 脆弱 的 基 类 问题 。 第 二 ， 
子 类 代码 可 以 访问 所 有 实例 变量 ， 因 此 它们 可 能 会 扭曲 父 类 代码 的 意图 。 例 如 ， 用 于 选票 统计 系统 
的 Counter 类 的 设计 者 可 能 会 尽 最 大 努力 保证 Counter 每 次 只 能 将 计数 器 加 一 (还 记得 Al Gore 的 
问题 吗 ) 。 但 它 的 子 类 可 以 完全 访问 这 个 实例 变量 ， 因 此 可 以 将 它 改变 为 任意 值 。 
怎样 才能 使 一 个 类 不 可 变 ? 

要 保证 含有 一 个 可 变 类 型 的 实例 变量 的 数据 类 型 的 不 可 变性 ， 需 要 得 到 一 个 本 地 副本 ， 这 被 称 为 保 
护 性 复制 ， 但 这 也 不 一 定 能 够 达到 目的 。 得 到 副本 是 一 个 方面 ， 保 证 没有 任何 实例 方法 能 够 改变 数 
据 的 值 是 另 一 方面 。 

什么 是 空 (nu11) ? 

它 是 一 个 不 指向 任何 对 象 的 字面 量 。 引 用 nu11 调用 一 个 方法 是 没有 意义 的 ， 并 且 会 产生 
Nu11PointerException。 如 果 你 得 到 了 这 条 错误 信息 ， 请 检查 并 确认 构造 函数 是 否 正确 地 初始 化 
了 类 的 所 有 实例 变量 。 

实现 某 种 数据 类 型 的 类 中 能 否 存在 静态 方法 ? 

当然 可 以 。 例 如 ， 我 们 实现 的 所 有 类 中 都 含有 一 个 main() 方法 。 另 外 ， 对 于 涉及 多 个 对 象 的 操作 ， 
如 果 它 们 都 不 是 触发 该 方法 的 合适 对 象 ， 那 么 就 应 该 考虑 添加 一 个 静态 方法 。 例 如 ， 我 们 可 以 在 
Point 类 中 定义 如 下 静态 方法 : 

public static double distance(Point a, Point b) 

{ 

} 

这 种 方法 常常 能 够 简化 用 例 代码 。 

除了 参数 变量 、 局 部 变量 和 实例 变量 外 还 有 其 他 种 类 的 变量 吗 ? 

如 果 你 在 类 的 声明 中 包含 了 关键 字 static ( 在 其 他 类 型 之 前 ) ， 就 创建 了 一 种 称 为 静态 变量 的 完 
全 不 同 的 变量 。 和 实例 变量 一 样 ， 类 中 的 所 有 方法 都 可 以 访问 静态 变量 ， 但 静态 变量 却 并 不 和 任 
何 具体 的 对 象 相关 联 。 在 较 老 的 编程 语言 中 ， 这 种 变量 被 称 为 全 局 变量 ， 因 为 它们 的 作用 域 是 全 
局 的 。 在 现代 编程 中 ， 我 们 希望 限制 变量 的 作用 域 ， 因 此 很 少 使 用 这 种 变量 。 在 使 用 它们 时 会 非 
常 小 心 。 


return a.distTo(b); 
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问 什么 是 弃 用 (deprecated ) 的 方法 ? 

答 不 再 被 支持 但 为 了 保持 兼容 性 而 留 在 API 中 的 方法 叫做 弃 用 的 方法 。 例 如 ，Java 曾经 包含 了 一 个 
Character.isSpace() 的 方法 ， 程 序 员 也 使 用 这 个 方法 编写 了 一 些 程序 。 当 Java 的 设计 者 们 后 来 希 
望 支持 Unicode 空白 字符 时 ， 他 们 无 法 既 改 变 isSpace() 的 行为 又 不 损害 用 例 程序 。 因 此 他 们 添加 
了 一 个 新 方法 Character.iswhiteSpace() 并 放弃 了 老 的 方法 。 随 着 时 间 的 推移 ， 这 种 方式 显然 会 
使 API 更 复杂 。 有 时 候 甚至 整个 类 都 会 被 弃 用 。 例 如 ，Java 为 了 更 好 地 支持 国际 化 就 将 它 的 java. 














uti1.Date 标记 为 弃 用 。 3 
图 练 与 
1.2.1 编写 一 个 Point2D 的 用 例 ， 从 命令 行 接受 一 个 整数 N。 在 单位 正方 形 中 生成 个 随机 点 ， 然 后 计 
算 两 点 之 间 的 最 近 距 离 。 


1.2.2 编写 一 个 IntervallD 的 用 例 ， 从 命令 行 接受 一 个 整数 N。 从 标准 输入 中 读 取 N 个 间隔 ( 每 个 间隔 
由 一 对 double 值 定义 ) 并 打印 出 所 有 相交 的 间隔 对 。 

1.2.3 ”编写 一 个 Interval2D 的 用 例 ， 从 命令 行 接受 参数 N、min 和 max。 生 成 N 个 随机 的 2D 间隔 ， 其 宽 
和 高 均匀 地 分 布 在 单位 正方 形 中 的 min 和 max 之 间 。 用 StdDraw 画 出 它们 并 打印 出 相交 的 间隔 对 
的 数量 以 及 有 包含 关系 的 间隔 对 数量 。 

1.2.4 以 下 这 段 代码 会 打印 出 什么 ? 
String stringl = "hello' 
String string2 = stringl; 
Stringl = "world"; 


Std0out .println(stringl); 
StdOut .println(string2); 


1.2.5 以 下 这 段 代码 会 打印 出 什么 ? 
String s = "Hello World"; 
s.toUpperCaseO; 
s.substring(6, 11); 
StdOut.print1n(s); 
答 :“"hello World"。String 对 象 是 不 可 变 的 一 一 所 有 字符 串 方法 都 会 返回 一 个 新 的 String 对 象 
(但 它们 不 会 改变 参数 对 象 的 值 ) 。 这 段 代 码 忽略 了 返回 的 对 象 并 直接 打印 了 原 字符 串 。 要 打印 出 
"WORLD"， 请 用 s = s.toUpperCase() 和 s = s.substring(6, 11), 
1.2.6 ”如 果 字符 串 s 中 的 字符 循环 移动 任意 位 置 之 后 能 够 得 到 另 一 个 字符 串 t+， 那么 s 就 被 称 为 t 的 回 
环 变 位 (circular rotation ) 。 例 如 ，ACTGACG 就 是 TGACGAC 的 一 个 回环 变 位 ， 反 之 亦 然 。 判 定 这 
个 条 件 在 基因 组 序列 的 研究 中 是 很 重要 的 。 编 写 一 个 程序 检查 两 个 给 定 的 字符 串 s 和 是 否 互 为 ”TI4 
回环 变 位 。 提 示 : 答案 只 需要 一 行 用 到 index0f() 、length() 和 字符 串 连接 的 代码 。 
1.2.7 以 下 递归 函数 的 返回 值 是 什么 ? 
public static String mystery(String s) 
{ 
int N = s.lengthO); 
if (CN <= 1) return s; 
String a = s.substring(0, N/2); 
String b = s.substring(N/2, N); 
return mystery(b) + mystery(a); 
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”1.2.8 设 a[] 和 bf] 均 为 长 数 百 万 的 整形 数组 。 以 下 代码 的 作用 是 什么 ? 有 效 吗 ? 
int[] t =a; a=b;b=t; 
答 : 这 段 代码 会 将 它们 交换 。 它 的 效率 不 可 能 再 高 了 ， 因 为 它 复制 的 是 引用 而 不 需要 复制 数 百 万 ， 
个 元 素 。 
1.2.9 修改 BinarySearch (请 见 1.1.10.1 节 中 的 二 分 查找 代码 ) ， 使 用 Counter 统计 在 有 查找 中 被 检 
查 的 键 的 总 数 并 在 查找 全 部 结束 后 打印 该 值 。 提 示 : 在 main() 中 创建 一 个 Counter 对 象 并 将 它 
作为 参数 传递 给 rankO。 
1.2.10 ”编写 一 个 类 visua1Counter， 支 持 加 一 和 减 一 操作 。 它 的 构造 函数 接受 两 个 参数 N 和 max， 其 
中 N 指 定 了 操作 的 最 大 次 数 ，max 指定 了 计数 器 的 最 大 绝对 值 。 作 为 副作用 ， 属国 信用 示 每 估计 
数 器 变化 后 的 值 。 
1.2.11 根据 Date 的 API 实 现 一 个 SmartDate 类 型 ， 在 日 期 非法 时 抛 出 一 个 异常 。 
1.2.12 为 smartDate 添加 一 个 方法 dayOfTheweek()， 为 日 期 中 每 周 的 日 返回 Monday、Tuesday、 
”Wednesday、Thursday、Friday、Saturday 或 Sunday 中 的 适当 值 。 你 可 以 假定 时 间 是 21 世纪 。- 
-1.2.13 用 我 们 对 Date 的 实现 (请 见 表 1.2.12 ) 作为 模板 实现 Transaction 类 型 。 
I 1.2.14 ”用 我 们 对 Date 中 的 equals 0 方法 的 实现 ( 请 见 1.2.5.8 节 中 的 Date 类 代码 框 ) 人 发 光板 
116 现 Transaction 中 的 equals() 方法 。 





图 提高 是 


1.2.15 文件 栓 入。 基于 String 的 sp1it() 方法 实现 In 中 的 静态 方法 readInts ()。 
解答 : 
public static int[] readInts(String name) 
{ : 

In in = new In(name); 

String input = StdIn.readA110); 

String[] ‘words = input.split("\\s+"); 

int[] ints = new int[words.lengthi 

for(int 1 = 0; i < word. length; i++) - 

ints[i] = Integer.parseInt(words[i]); 
return ints; 


3 
我 们 会 在 1.3 节 中 学 习 另 一 个 不 同 的 实现 ( 请 见 1.3.1.5 节 ) 。 
1.2.16 ” 有理数。 为 有 理 数 实现 一 个 不 可 变数 据 类 型 Rational ， 支 持 加 减 乘除 操作 。 


public class Rational 
Rational(int numerator, int denominator) 





Rational plus(Rational b) 该 数 与 5 之 和 
Rational minus(Rational b) 该 数 与 5 之 差 
Rational times(Rational b) 该 数 与 5 之 积 
Rational divides(Rational b) 该 数 与 5 之 商 
boolean equals(Rational that) 该 数 与 that 相等 吗 
String _ toStringO 对 象 的 字符 申 表示 





无 需 测试 溢出 《请 见 练习 1.2.17 ) ， 只 需 使 用 两 个 1ong 型 实例 变量 表示 分 子 和 分 母 来 控制 溢出 


1.2.17 
1.2.18 


gs 


的 可 能 性 。 使 用 欧 几 里 德 算法 来 保证 分 子 和 分 母 没有 公 因 子 。 编 写 一 个 测试 用 例 检测 你 实现 的 
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所 有 方法 。 6 

有 理 数 实现 的 健壮 性 。 在 Rational ( 请 见 练习 1.2.16 ) 的 开发 中 使 用 断言 来 防止 溢出 。 

累加 器 的 方差 。 以 下 代码 为 Accumulator 类 添加 了 varQ 和 stddevQ 方法 ， 它 们 计算 了 
addDataValue() 方法 的 参数 的 方差 和 标准 差 ， 验 证 这 段 代 码 。 


public class Accumulator 


private double m; 

private double s; 

private int N; 

public void addDataValue(double x) 


Nt+i 
Se=s+1.0* (ND)D/AN*(CxX-m* (x-m); 
mem+ xX-m/N; 


} 

public double mean() 

{ -return m;.} 

public double var() 

{return s/(N - 1); } 

public double stddev() 

{ return Math.sqrt(this.varO); } 
} 


与 直接 对 所 有 数据 的 平方 求 和 的 方法 相 比较 ， 这 种 实现 能 够 更 好 地 避免 四 含 五 人 产生 的 误差。 
字符 囊 解析 。 为 你 在 练习 1.2.13 中 实现 的 Date 和 Transaction 类 型 编写 能 够 解析 字符 申 数据 
的 构造 函数 。 它 接受 一 个 String 参数 指定 的 初始 值 ， 格 式 如 表 1.2.20 所 示 : 


要 表 1.2.20 被 解析 的 宇 符 串 的 格式 











类 型 格式 举例 
Date 由 斜 杠 分 陋 的 整数 5/22/1939 
Transaction 客户 、 日 期 和 金额 ， 由 空白 字符 分 隔 Turing 5/22/1939 11.99 
部 分 解答 : 
public Date(String date) 
有 


String[] fields = date.split("/"); 

month = Integer.parseInt(fields[0]); 

day = Integer.parseInt(fields[1]); 要 
year = Integer.parseInt(fields[2]); 2 [9 
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1.3 背包、 队列 和 栈 


许多 基础 数据 类 型 都 和 对 象 的 集合 有 关 。 具 体 来 说 ， 数 据 类 型 的 值 就 是 一 组 对 象 的 集合 ， 所 有 
操作 都 是 关于 添加 、 删 除 或 是 访问 集合 中 的 对 象 。 在 本 节 中 ,我 们 将 学 习 三 种 这 样 的 数据 类 型 ， 分 
别 是 背包 ( Bag ) 、 队 列 ( Queue ) 和 栈 ( Stack ) 。 它们 的 不 同 之 处 在 于 删除 或 者 访问 对 象 的 顺序 不 同 。 

背包 、 队 列 和 栈 数据 类 型 都 非常 基础 并 且 应 用 广泛 。 我 们 在 本 书 的 各 种 实现 中 也 会 不 断 用 到 它 
们 。 除 了 这 些 应 用 以 外 ， 本 节 中 的 实现 和 用 例 代码 也 展示 了 我 们 开发 数据 结构 和 算法 的 -一 般 方式 。 

本 节 的 第 一 个 目标 是 说 明 我 们 对 集合 中 的 对 象 的 表示 方式 将 直接 影响 各 种 操作 的 效率 。 对 于 集 
合 来 说 ， 我 们 将 会 设计 适 于 表示 一 组 对 象 的 数据 结构 并 高 效 地 实现 所 需 的 方法 。 

本 节 的 第 二 个 目标 是 介绍 泛 型 和 迁 代 。 它 们 都 是 简单 的 Java 概念 ， 但 能 极 大 地 简化 用 例 代码 。 
它们 是 高 级 的 编程 语言 机 制 ， 虽 然 对 于 算法 的 理解 并 不 是 必需 的 ， 但 有 了 它们 我 们 能 够 写 出 更 加 清 
晰 、 简 洁 和 优美 的 用 例 ( 以 及 算法 的 实现 ) 代码 。 

本 节 的 第 三 个 目标 是 介绍 并 说 明 链 式 数据 结构 的 重要 性 ， 特 别 是 经 典 数 据 结构 链表 ， 有 了 它 我 
们 才能 高 效 地 实现 背包 、 队 列 和 栈 。 理 解 链 表 是 学 习 各 种 算法 和 数据 结构 中 最 关键 的 第 -- 步 。 

对 于 这 三 种 数据 结构 ， 我 们 都 会 学 习 其 API 和 用 例 ， 然 后 再 讨论 数据 类 型 的 值 的 所 有 可 能 的 表 
示 方 法 以 及 各 种 操作 的 实现 。 这 种 模式 会 在 全 书 中 反复 出 现 ( 且 数 据 结构 会 越 来 越 复 杂 ) 。 这 里 的 
实现 是 下 文 所 有 实现 的 模板 ， 值 得 仔细 研究 。 


1.3.1 API 


照例 ， 我 们 对 集合 型 的 抽象 数据 类 型 的 讨论 从 定义 它们 的 API 开始， 如 表 1.3.1 所 示 。 每 份 
API 都 含有 一 个 无 参数 的 构造 函数 、 一 个 向 集合 中 添加 单个 元 素 的 方法 、 一 个 测试 集合 是 否 为 空 
的 方法 和 一 个 返回 集合 大 小 的 方法 。Stack 和 Queue 都 含有 一 个 能 够 删除 集合 中 的 特定 元 素 的 方 
法 。 除 了 这 些 基 本 内 容 之 外 ， 我 们 将 在 以 下 几 节 中 解释 这 几 份 API 反映 出 的 两 种 Java 特性 : 泛 型 
与 选 代 。 

表 1.3.1 泛 型 可 和 迭代 的 基础 集合 数据 类 型 的 API 
— 
背包 5 
public class Bag<Item> implements Iterable<Item> 





BagO 创建 一 个 空 背包 
void add(Item item) 洪 加 一 个 元 素 
boolean isEmptyO) 背包 是 否 为 空 
int sizeO 背包 中 的 元 素数 量 





先进 先 出 〈FIFO) 队列 
public class Queue<Item> implements Iterable<Item> 





QueueO 创建 空 队列 
void enqueue(Item item) 添加 一 个 元 素 
Item dequeue() 删除 最 近 添 加 的 元 素 
boolean isEmpty() 队列 是 否 为 空 


int size() 队列 中 的 元 素数 量 
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( 续 ) 





下 压 〈 后 进 先 出 ，LIFO) 栈 
public class Stack<Item> implements Iterable<Item> 





StackO 创建 一 个 空 栈 
void push(Item item) 添加 一 个 元 素 
Item popO 删除 最 近 添加 的 元 素 
boolean isEmpty() 栈 是 否 为 空 
int sizeO 栈 中 的 元 素数 量 
1.3.1.1 泛 型 


集合 类 的 抽象 数据 类 型 的 -个 关键 特性 是 我 们 应 应 该 可 以 用 它们 存储 任意 类 型 的 数据 。 一 种 特别 
的 Java 机 制 能 够 做 到 这 一 点 ， 它 被 称 为 泛 型 ,也 叫做 参数 化 类 型 。 泛 型 对 编程 语言 的 影响 非常 深 
刻 ， 许 多 语言 并 没有 这 种 机 制 ( 包括 早期 版 本 的 Java ) 。 在 这 里 我 们 对 泛 型 的 使 用 仅 限 于 一 点 额外 
的 Java 语法 ， 非 常 容易 理解 。 在 每 份 API 中 ， 类 名 后 的 <Item> 记号 将 Ttem 定义 为 一 个 类 型 参数 ， 
它 一 个 象征 性 的 占 位 符 ， 表 示 的 是 用 例 将 会 使 用 的 某 种 具体 数据 类 型 。 可 以 将 Stack<Item> 理解 
为 基 种 元 素 的 栈 。 在 实现 Stack 时 ， 我 们 并 不 知道 Ttem 的 具体 类 型 ， 但 用 例 可 以 用 我 们 的 栈 处 理 
任意 类 型 的 数据 ， 甚 至 是 在 我 们 的 实现 之 后 才 出 现 的 数据 类 型 。 在 创建 栈 时 ， 用 例会 提供 一 种 具体 
的 数据 类 型 我们 可 以 将 Item 替换 为 任意 引用 数据 类 型 ( Ttem 出 现 的 每 个 地 方 都 是 如 此 ) 。 这 种 
能 力 正 是 我 们 所 需要 的 。 例 如 ， 可 以 编写 如 下 代码 来 用 栈 处 理 String 对 象 : 


Stack<String> stack = new Stack<String>O; 

stack,pushC"Test"); 

String next = stack.popO; 
并 在 以 下 代码 中 使 用 队列 处 理 Date 对 象 : 

Queue<Date> queue = new Queue<Date>(); 

queue.enqueue (new Date(12, 31, 1999)); 

Date next = queue.dequeue()’; 

如 果 你 尝试 向 stack 变量 中 添加 一 个 Date 对 象 (或 是 任何 其 他 非 String 类 型 的 数据 ) 或 者 
向 queue 变量 中 添加 一 个 String 对 象 或 是 任何 其 他 非 Date 类 型 的 数据 ) ， 你 会 得 到 一 个 编译 
时 错误 。 如 果 没 有 泛 型 , 我 们 必须 为 需要 收集 的 每 种 数据 类 型 定义 (并 实现 ) 不同 的 API。 有 了 泛 型 ， 
我 们 只 需要 一 份 API ( 和 一 次 实现 ) 就 能 够 处 理 所 有 类 型 的 数据 ， 甚 至 是 在 未 来 定义 的 数据 类 型 。 
你 很 快 将 会 看 到 ， 使 用 泛 型 的 用 例 代码 很 容易 理解 和 调试 ， 因 此 全 书 中 我 们 都 会 用 到 它 。 
1.3.1.2 自动 装 箱 

类 型 参数 必须 被 实例 化 为 引用 类 型 ， 因 此 Java 有 一 种 特殊 机 制 来 使 泛 型 代码 能 够 处 理 原始 
数据 类 型 。 我 们 还 记得 Java 的 封装 类 型 都 是 原始 数据 类 型 所 对 应 的 引用 类 型 : Boolean、Byte、 
Character、Double、Float、Integer、Long 和 Short 分 别 对 应 着 boolean、byte、char、 
double、float、int、1long 和 short。 在 处 理 赋值 语句 、 方 法 的 参数 和 算术 或 逻辑 表达 式 时 ， 
Java 会 自动 在 引用 类 型 和 对 应 的 原始 数据 类 型 之 间 进行 转换 。 在 这 里 ， 这 种 转换 有 助 于 我 们 同时 使 
用 泛 型 和 原始 数据 类 型 。 例 如 : 
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Stack<Integer> stack = new Stack<Integer>O; 
stack. push(17); // 自动 羔 箱 (int -> Integer) 
int i = stack.popO 〇 ; // 自动 拆 箱 (Integer -> int) 


自动 将 一 个 原始 数据 类 型 转换 为 一 个 封装 类 型 被 称 为 自动 装 箱 ， 自 动 将 一 个 封装 类 型 转换 为 一 
个 原始 数据 类 型 被 称 为 自动 拆 箱 。 在 这 个 例子 中 ， 当 我 们 将 一 个 原始 类 型 的 值 17 传递 给 push0) 方 
法 时 ，Java 将 它 的 类 型 自动 转换 ( 自动 装 箱 ) 为 Integer。pop() 方法 返回 了 一 个 Integer 类 型 的 
值 ，Java 在 将 它 赋予 变量 i 之 前 将 它 的 类 型 自动 转换 ( 自动 拆 箱 ) 为 了 int。 
1.3.1.3 “可 迭代 的 集合 类 型 

对 于 许多 应 用 场景 ， 用 全 的 要 求 只 是 用 革 种 方式 处 理 集合 中 的 每 个 元 家 或 者 叫做 近代 访问 集合 
中 的 所 有 元 素 。 这 种 模式 非常 重要 ， 在 Java 和 其 他 许多 语言 中 它 都 是 一 级 语言 特性 ( 不 只 是 库 ， 编 程 
语言 本 身 就 含有 特殊 的 机 制 来 支持 它 ) 。 有 了 它 ， 我们 能 够 写 出 清晰 简洁 的 代码 是 不 依赖 于 集合 类 型 的 
具体 实现 。 例 如 ， 假 设 用 例 在 Queue 中 维护 一 个 交易 集合 ， 如 下 : 


Queue<Transaction> collection = new Queue<Transaction>(); 


如 果 集 合 是 可 迭代 的 ， 用 例 用 一 行 语句 即 可 打印 出 交易 的 列表 : 
for (Transaction t : collection) 
{ Stdout.println(t); } 


这 种 请 法 叫做 foreach 语句 : 可 以 将 for 语句 看 做 对 于 集合 一 个 装 有 
中 的 每 个 交易 t(foreach) ， 执 行 以 下 代码 段 。 这 段 用 例 代码 不 需 be 
要 知道 集合 的 表示 或 实现 的 任何 细节 ， 它 只 想 逐 个 处 理 集合 中 的 
元 素 。 相 同 的 for 语句 也 可 以 处 理 交易 的 Bag 对 象 或 是 任何 可 和 
代 的 集合 。 很 难 想象 还 有 比 这 更 加 清晰 和 简洁 的 代码 。 你 将 会 看 到 ， 
i -但 这 些 工作 是 值 @ @ 
得 的 。 
有 起 的 是 ，Stack 和 Queue 的 API 的 叭 .不 同 之 处 只 是 它 dD) 


们 的 名 称 和 方法 名 。 这 让 我 们 认识 到 无 法 简单 地 通过 一 列 方法 
的 签名 说 明 一 个 数据 类 型 的 所 有 特点 。 在 这 里 ,- 只 有 自然 语言 
的 描述 才能 说 明 选 择 被 删除 元 素 ( 或 是 在 foreach 语句 中 下 一 图 
个 被 处 理 的 元 素 ) 的 规则 。 这 些 规则 的 差异 是 API 的 重要 组 成 
部 分 ， 而 且 显然 对 用 例 代码 的 开发 十 分 重要 。 _ 
1.3.1.4 背包 

背包 是 一 种 不 支持 从 中 删除 元 素 的 集合 数据 类 型 一 它 的 
目的 就 是 帮助 用 例 收集 元 素 并 迭代 人 遍历 所 有 收集 到 的 元 素 ( 用 
例 也 可 以 检查 背包 是 否 为 空 或 者 获取 背包 中 元 素 的 数量 ) 。 和 迭 
代 的 顺序 不 确定 且 与 用 例 无 关 。 要 理解 背包 的 概念 ， 可 以 想象 





一 个 非常 喜欢 收集 弹子 球 的 人 。 他 将 所 有 的 弹子 球 都 放 在 一 个 for (Marble m : bag) 
背包 里 ， 一 次 一 个 ， 并 且 会 不 时 在 所 有 的 弹子 球 中 寻找 某 一 颗 各 ® 
拥有 某 种 特点 的 弹子 球 。 使 用 Bag 的 API， 用 例 可 以 将 元 素 添 SN 
加 进 背包 并 根据 需要 随时 使 用 foreach 语句 访问 所 有 的 元 素 。 处 理 任意 弹子 于 

用 例 也 可 以 使 用 栈 或 是 队列 ， 但 使 用 .Bag 可 以 说 明 元 素 的 处 理 i 


顺序 不 重要 。 图 1.3.1 所 示 的 Stats 类 是 Bag 的 一 个 典型 用 例 。 图 1.3.1， 背 包 的 操作 ( 另 见 彩 插 ) 
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它 的 任务 是 简单 地 计算 标准 输入 中 的 所 有 double 值 的 平均 值 和 样本 标准 差 。 如 果 标准 输入 中 有 入 
个 数字 ， 那 么 平均 值 为 它们 的 和 除 以 N， 样 本 标准 差 为 每 个 值 和 平均 值 之 差 的 平方 之 和 除 以 N-1 之 
后 的 平方 根 。 在 这 些 计算 中 ， 数 的 计算 顺序 和 结果 无 关 ， 因 此 我 们 将 它们 保存 在 一 个 Bag 对 象 中 
并 使 用 foreach 语法 来 计算 每 个 和 。 注 意 : 不 需要 保存 所 有 的 数 也 可 以 计算 标准 差 ( 就 像 我 们 在 
Accumulator 中 计算 平均 值 那样 一 一 请 见 练习 1.2.18 ) 。 用 Bag 对 象 保存 所 有 数字 是 更 复杂 的 统计 
计算 所 必需 的 。 

以 下 代码 框 列 出 的 是 常用 的 背包 用 例 。 


背包 的 典型 用 例 
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public class Stats 
public static void main(String[] args) 
i 


Bag<Double> numbers = new Bag<Double>O; 


while (!StdIn.isEmpty()) 
numbers.add(StdIn. readDouble()); 使 用 方法 
int N = numbers.sizeO; 


double sum = 0.0; % java Stats 


for (double x : numbers) 00 
Sum += Xi 99 
double mean = sum/N; en 
120 

sum = 0.0; 98 
for (double x : numbers) 107 
Sum += (x - mean)*(x - mean); 109 
double std = Math.sqrt(sum/(N-1)); a1 
StdOut .printf("Mean: %.2f\n", mean); 101 
StdOut.printf("Std dev: %.2f\n", std); 90 

} Mean: 100.60 
} Std dev: 10.51 
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1.3.1.5 ”先进 先 出 队列 
先进 先 出 队列 (或 简称 队列 ) 是 一 种 基于 先进 先 出 (FIFO ) 策略 的 集合 类 型 ， 如 图 1.3.2 所 示 。 

按照 任务 产生 的 顺序 完成 它们 的 策略 我 们 每 天 都 会 遇 到 : 在 剧院 门 前 排队 的 人 们 、 在 收费 站 前 排队 
的 汽车 或 是 计算 机 上 某 种 软件 中 等 待 处 理 的 任务 。 任 何 服务 性 策略 的 基本 原则 都 是 公平 。 在 提 到 公 
平时 大 多 数 人 的 第 一 个 想法 就 是 应 该 优先 服务 等 待 最 久 的 人 ， 这 正 是 先进 先 出 策略 的 准则 。 队 列 是 
许多 日 常 现象 的 自然 模型 ， 它 也 是 无 数 应 用 程序 的 核心 。 当 用 例 使 用 foreach 语句 兴 代 访问 队列 中 
的 元 素 时 ， 元 素 的 处 理 顺序 就 是 它们 被 添加 到 队列 中 的 顺序 。 在 应 用 程序 中 使 用 队列 的 主要 原因 
是 在 用 集合 保存 元 素 的 同时 保存 它们 的 相对 顺序 ， 使 它们 入 列 顺序 和 出 列 顺序 相同 。 例 如 ， 下 页 
的 用 例 是 我 们 的 In 类 的 静态 方法 readInts() 的 一 种 实现 。 这 个 方法 为 用 例 解决 的 问题 是 用 例 无 
需 预 先知 道 文件 的 大 小 即 可 将 文件 中 的 所 有 整数 读 入 一 个 数组 中 。 我 们 首先 将 所 有 的 整数 读 入 队 
列 中 ， 然 后 使 用 Queue 的 size() 方法 得 到 所 需 数组 的 大 小 ， 创 建 数组 并 将 队列 中 的 所 有 整数 移 
动 到 数组 中 。 队 列 之 所 以 合适 是 因为 它 能 够 将 整数 按照 文件 中 的 顺序 放 入 数组 中 ( 如 果 该 顺序 并 
不 重要 ， 也 可 以 使 用 Bag 对 象 ) 。 这 段 代 码 使 用 了 自动 装 箱 和 拆 箱 来 转换 用 例 中 的 int 原始 数据 
类 型 和 队列 的 Integer 封装 类 型 。 
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图 1.3.2 一 个 典型 的 先进 先 出 队列 


1.3.1.6， 下 压 栈 


下 压 栈 ( 或 简称 栈 ) 是 一 种 基于 后 进 先 出 


(LIFO ) 策略 的 集合 类 型 ， 如 图 1.3.3 所 示 。 当 


- 你 的 邮件 在 桌 上 放 成 一 到 时 ， 使 用 的 就 是 栈 。 新 


邮件 来 到 时 你 将 它们 放 在 最 上 面 ， 当 你 有 空 时 你 
会 一 封 一 封地 从 上 到 下 阅读 它们 。 现在 人 们 应 付 
的 纸 质 品 比 以 前 少 得 多 ， 但 计算 机 上 的 许多 常用 
程序 遵循 相同 的 组 织 原则 。 例 如 ， 许 多 人 仍然 用 
栈 的 方式 存放 电子 邮件 -一 在 收 信 时 将 邮件 压 人 
(push ) 最 顶端 ， 在 取信 时 从 最 顶端 将 它们 弹出 
《 pop ), 且 第 一 封 一 定 是 最 新 的 邮件 ( 后 进 , 先 出 )。 


:这 种 策略 的 好 处 是 我 们 能 够 及 时 看 到 感 兴趣 的 邮 


件 ， 坏 处 是 如 果 你 不 把 栈 清空 ， 某 些 较 早 的 邮件 
可 能 永远 也 不 会 被 阅读 。 你 在 网 上 冲浪 时 很 可 能 
会 遇 到 栈 的 另 一 个 例子 。 点 击 一 个 超 链接 ， 浏 览 


2 器 会 显示 一 个 新 的 页 面 (并 将 它 压 人 一 个 栈 ) 。 


你 可 以 不 断 点 击 超 链接 并 访问 新 页 面 ， 但 总 是 可 
以 通过 点 击 “ 回 退 ” 按钮 重新 访问 以 前 的 页 面 (从 
栈 中 弹出 ) 。 栈 的 后 进 先 出 策略 正好 能 够 提供 你 
所 需要 的 行为 。 当 用 例 使 用 foreach 语句 迭代 遍 
历 栈 中 的 元 素 时 。 元素 的 处 理 顺序 和 它们 被 压 人 


public static int[] readInts(String 
name) 
* 
In in = new In(name); 
Queue<Integer> q = new 
Queue<Integer>(); 
while (!in.isEmptyO) 
q9-enqueue(in. readInt()); 


int N = q.sizeO); 

int[] a = new int[N]; 

for (int i = 0; i < N; i++) 
a[i] = q.dequeue(); 

return a; 


Queue 的 用 例 
-所 文件 、、 

jy 新 到 的 文件 ( 灰 

push(a7) < 一 色 ) 放 在 顶端 
新 到 的 文件 ( 黑 

push (Er) < 一 色 ) 放 在 顶端 

站 从 顶端 取 走 

-Ar = popO < 一 黑色 的 文件 

从 顶端 取 走 

< = popO 和 7 灰色 的 文件 


图 433 下 压 栈 的 操作 
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的 顺序 正好 相反 。 在 应 用 程序 中 使 用 栈 迭 代 器 的 
一 个 典型 原因 是 在 用 集合 保存 元 素 的 同时 颠倒 它 
们 的 相对 顺序 。 例 如 ， 右 侧 的 用 例 Reverse 将 pe Static void main(String[] args) 


public class Reverse 
{ 





会 把 标准 输入 中 的 所 有 整数 逆序 排列 ， 同 样 它 也 Stack<Integer> stack 
无 需 预先 知道 整数 的 多 少 。 在 计算 机 领域 ， 栈 具 eeiviassscedhe id 

whil tdIn.isEmpt) 
有 基础 而 深远 的 影响 ， 下 一 节 我 们 会 仔细 研究 一 Dc ato 
个 例子 ， 以 说 明 栈 的 重要 性 。 for Cint 1 : stack) We 
1.3.1.7 算术 表达 式 求 值 StdOut.printInCi); 


我 们 要 学 习 的 另 一 个 栈 用 例 同时 也 是 展示 泛 了 
型 的 应 用 的 一 个 经 典 例子 。 我 们 在 1.1 节 中 最 初 
学 习 的 几 个 程序 之 一 就 是 用 来 计算 算术 表达 式 的 Stack 的 用 例 
值 的 ， 例 如 

党 丰 和 二 

如 果 将 4 乘 以 5， 把 3 加 上 2， 取 它们 的 积 然后 加 1， 就 得 到 了 101。 但 Java 系统 是 如 何 完成 
这 些 运算 的 呢 ? 不 需要 研究 Java 系统 的 构造 细节 ,我 们 也 可 以 编写 一 个 Java 程序 来 解决 这 个 问题 。 
它 接受 一 个 输入 字符 串 (表达 式 ) 并 输出 表达 式 的 值 。 为 了 简化 问题 ， 首 先 来 看 一 下 这 份 明确 的 弟 
归 定 义 : 算术 表达 式 可 能 是 一 个 数 ， 或 者 是 由 一 个 左 括号 、 一 个 算术 表达 式 、 一 个 运算 符 、 另 一 个 
算术 表达 式 和 一 个 右 括号 组 成 的 表达 式 。 简 单 起 见 ， 这 里 定义 的 是 未 省 咯 括号 的 算术 表达 式 ， 它 明 “ 
确 地 说 明了 所 有 运算 符 的 操作 数 一 - 你 可 能 更 熟悉 形 如 1 + 2 * 3 的 表达 式 ， 省 略 了 括号 ， 而 采 
用 优先 级 规则 。 我 们 将 要 学 习 的 简单 机 制 也 能 处 理 优先 级 规则 ， 但 在 这 里 我 们 不 想 把 问题 复杂 化 。 
为 了 突出 重点 ， 我 们 支持 最 常见 的 二 元 运算 符 *、+、 一 和 /， 以 及 只 接受 一 个 参数 的 平方 根 运算 符 
sqrt。 我 们 也 可 以 轻易 支持 更 多 数量 和 种 类 的 运算 符 来 计算 多 种 大 家 熟悉 的 数学 表达 式 ， 包 括 三 角 
函数 、 指 数 和 对 数 函数 。 我 们 的 重点 在 于 如 何 解析 由 括号 、 运 算 符 和 数字 组 成 的 字符 串 ， 并 按照 正 
确 的 顺序 完成 各 种 初级 算术 运算 操作 。 如 何 才能 够 得 到 一 个 ( 由 字符 串 表示 的 ) 算 术 表 达 式 的 值 呢 ? 
E.W.Dijkstra 在 20 世纪 60 年 代 发 明了 一 个 非常 简单 的 算法 ， 用 两 个 栈 ( 一 个 用 于 保存 运算 符 ， 一 
个 用 于 保存 操作 数 ) 完成 了 这 个 任务 ， 其 实现 过 程 见 下 页 ， 求 值 算法 的 轨迹 如 图 1.3.4 所 示 。 

表达 式 由 括号 、 运 算 符 和 操作 数 (数字 ) 组 成 。 我 们 根据 以 下 4 种 情况 从 左 到 右 逐 个 将 这 些 实 
体 送 入 栈 处 理 

口 将 操作 数 压 人 操作 数 栈 ; 

口 将 运算 罕 压 人 运算 符 栈 ; 

口 忽略 左 括号 ; 

口 在 遇 到 右 括号 时 ， 弹 出 一 个 运算 符 ， 弹 出 所 需 数量 的 操作 数 ， 并 将 运算 符 和 操作 数 的 运算 结 

果 压 人 操作 数 栈 。 

在 处 理 完 最 后 一 个 右 括号 之 后 ， 操 作 数 栈 上 只 会 有 一 个 值 ， 它 就 是 表达 式 的 值 。 这 种 方法 乍 一 
看 有 些 难以 理解 ， 但 要 证 明 它 能 够 计算 得 到 正确 的 值 很 简单 : 每 当 算法 遇 到 一 个 被 括号 包围 并 由 一 [28 
个 运算 符 和 两 个 操作 数组 成 的 子 表达 式 时 ， 它 都 将 运算 符 和 操作 数 的 计算 结果 压 人 操作 数 栈 。 这 样  - 
的 结果 就 好 像 在 输入 中 用 这 个 值 代替 了 该 子 表达 式 ， 因 此 用 这 个 值 代替 子 表达 式 得 到 的 结果 和 原 表 
达 式 相同 。 我 们 可 以 反复 应 用 这 个 规律 并 得 到 一 个 最 终 值 。 例 如 ， 用 该 算法 计算 以 下 表达 式 得 到 的 
结果 都 是 相同 的 : 
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解释 给 定 字符 串 所 表达 的 运算 并 计算 得 到 结果 的 程序 。 
Dijkstra 的 双 栈 算术 表达 式 求 值 算法 


~ public class Evaluate 





public static void main(String[] args) 


Stack<String> ops ~ new Stack<String>O); 
Stack<Double> vals = new Stack<Double>O; 
while (!StdIn. isEmpty()) 

{ // 读 取 字符。 如 果 是 运算 符 则 压 入 栈 





String s = .readString(); 
if (s, 了 
else if (s. ops.push(s); 
else if (s, ops .push(s); 
else if (s. ops-push(s); 
else if (s. ops.push(s); 


a else if (s.equals("sqrt")) ops.push(s); 
else if (s.equals(")")) 
{ .// 如 果 字 符 为 "}"， 弹 出 运算 符 和 操作 数 ， 计 算 结果 并 压 入 栈 
String op = ops,popO; 
double v = vals.popO; 
if (op.equals("+")) v= vals.pop() + Vi 
else if (op.equals("-")) v= vals.pop() ~ 
else if. (op.equals("*")) v= vals.pop() * v; 
else if (op.equals("/")) v= vals.popQ /vy; 
else if (op.equals("sqrt")) v = Math,sqrtCv); 
vals.pushCv); | 
】 // 姑 曝 字符 胸 非 运算 符 也 不 是 括号 ， 将 它 作为 double 值 压 入 栈 
else vals.push(Double.parseDouble(s)); 
} 
StdOut.printin(Cvals.popO); 





} 


这 段 Stack 的 用 例 使 用 了 两 个 栈 来 计算 表达 式 的 值 。 它 展示 了 一 种 重要 的 计算 模型 ; 将 一 个 字符 
串 解释 为 一 段 程序 并 执行 该 程序 得 到 结果 。 有 了 泛 型 ， 我 们 只 需 实现 Stack 一 次 即 可 使 用 String 值 


”的 栈 和 Double 值 的 栈 。 简 单 起 见 ， 这 段 代 码 假设 表达 式 没有 省 略 任何 括号 ， 数 字 和 字符 均 以 空白 字符 
相隔 。 一 


% java Evaluate 
人 C2 考证 站 7 访 
101.0 当 








| 
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图 1.3.4 Dijkstra 的 双 栈 算术 表达 式 求 值 算法 的 轨迹 


1.3.2 ”集合 类 数据 类 型 的 实现 


在 括 号 : 忽略 
(1+((2+3)*(4*5))) 

操作 数 : 压 和 人 操作 数 栈 
1+((2+3)*(4*5))) 

运算 符 ， 压 人 运算 符 栈 
+CC2+3)*(4*5))) 
(C2+3)*(4*5))) 
(2+3)*(4*5))) 
2+3)*(4*5))) 
+3)*(4*5))) 


3)*C4*5))) 
右 括号 ， 弹 出 运算 符 
A 和 操作 数 ， 压 人 结果 
)*(4*5))) 


*(4*5))) 
(4*5))) 
4*5))) 
*5))) 
5))) 
))) 

)) 


) 
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在 讨论 Bag、Stack 和 Queue 的 实现 之 前 ， 我 们 会 先 给 出 一 个 简单 而 经 典 的 实现 ， 然 后 讨论 它 


的 改进 并 得 到 表 1.3.1 中 的 API 的 所 有 实现 。 
1.3.2.1 定 容 栈 


作为 热身 ， 我 们 先 来 看 一 种 表示 容量 固定 的 字符 串 栈 的 抽象 数据 类 型 ， 如 表 1.3.2 所 示 。 它 的 
API 和 Stack 的 API 有 所 不 同 : 它 只 能 处 理 String 值 ， 它 要 求 用 例 指 定 一 个 容量 且 不 支持 迭代 。 
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实现 一 份 API 的 第 一 步 就 是 选择 数据 的 表示 方式 。 对 于 FixedCapacityStackOfstrings， 我 们 显 
然 可 以 选择 String 数组 。 由 此 我 们 可 以 得 到 表 1.3.2 中 底部 的 实现 ， 它 已 经 是 简单 得 不 能 再 简单 了 
(每 个 方法 都 只 有 一 行 ) 。 它 的 实例 变量 为 一 个 用 于 保存 栈 中 的 元 素 的 数组 a[] ， 和 一 个 用 于 保存 
栈 中 的 元 素数 量 的 整数 N。 要 删除 一 个 元 素 ， 我 们 将 N 减 1 并 返回 a[N] 。 要 添加 一 个 元 素 , 我们 将 
a[N] 设 为 新 元 素 并 将 N 加 1。 这 些 操作 能 够 保证 以 下 性 质 : 


表 1.3.2 一 种 表示 定 容 字符 串 栈 的 抽象 数据 类 型 
API public class FixedCapacityStackOfStrings 





FixedCapacityStackOfStrings(int cap) 创建 一 个 容量 为 cap 的 空 栈 
void push(String item) 添加 一 个 字符 串 
String popO 删除 最 近 添加 的 字符 串 
boolean isEmpty() 栈 是 否 为 空 
int size() 栈 中 的 字符 串 数量 





测试 用 例 public static void main(String[] args) 
{ 


FixedCapacityStackOfStrings si 
5 = new FixedCapacityStackOfStrings(100); 
while (!StdIn.isEmptyO) 
{ 

String item = StdIn.readString(); 

if (litem.equals("-")) 

5.push(item); 
else if (!s.isEmpty(C)) StdOut.print(s.popO + " "); 


} 
StdOut.printIn("(" + s.size() + " left on stack)"); 


使 用 方法 % more tobe.txt 
to be or not to - be - - that - - - is 
% java FixedCapacityStackOfStrings < tobe.txt 
to be not that or be (2 left on stack) 


数据 类 型 的 实现 public class FixedCapacityStackOfStrings 
Es 


private String[] a; // stack entries 
private int N; // size 

public FixedCapacityStackOfStrings(int cap) 
{ a= new String[cap]; } 

public boolean isEmpty() { return N 一 0; } 
public int size() { return N; } 
public void push(String item) 

{ alNt+] = item; } 

public String pop() 

{ return a[--N]; } 
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口 数组 中 的 元 素 顺 序 和 它们 被 插 。 表 1.3.3 FixedCapacityStackOfStrings 的 测试 用 例 的 轨迹 





入 的 顺序 相同 ; Sam sudou N a 
口 当 N 为 0 时 栈 为 空 ; (push) (Pop) RE 
口 栈 的 顶部 位 于 a[N-1] (如 果 栈 
非 空 ) to 1 to 
be 2 to be 
和 以 前 一 样 ， 用 恒等式 的 方式 思 or 3 to be or 
考 这 些 条 件 是 检验 实现 正常 工作 的 最 not 4 to be or not 
简单 的 方式 。 请 你 务必 完全 理解 这 个 to Sr cenit ee 
~ 而 to to or not 
实现 。 做 到 这 一 点 的 最 好 方法 是 检验 Pe 
一 系列 操作 中 栈 内 容 的 轨迹 , 如 表 1.3.3 加 be 4 to be or not 
所 示 。 测 试用 例会 从 标准 输入 读 取 多 - not 3 to be or 
个 字符 串 并 将 它们 压 人 一 个 栈 ， 当 遇 that 4 to be or that 
到 -时 它 会 将 栈 的 内 容 弹出 并 打印 结 。 SY 上 人 
果 。 这 种 实现 的 主要 性 能 特点 是 push RS 
和 pop 操作 所 需 的 时 间 独 立 于 栈 的 长 is 2 to _is t 


度 。 许 多 应 用 会 因为 这 种 简洁 性 而 选 
择 它 。 但 几 个 缺点 限制 了 它 作为 通用 工具 的 潜力 ， 我 们 要 改进 的 也 是 这 一 点 。 经 过 一 些 修改 ( 以 及 
Java 语言 机 制 的 一 些 帮助 ) ， 我 们 就 能 给 出 一 个 适用 性 更 加 广泛 的 实现 。 这 些 努 力 是 值得 的 ， 因 为 ”[133| 
这 个 实现 是 本 书 中 其 他 许多 更 强大 的 抽象 数据 类 型 的 模板 。 133 
1.3.2.2 泛 型 

FixedCapacityStackOfStrings 的 第 一 个 缺点 是 它 只 能 处 理 String 对 象 。 如 果 需 要 一 
个 double 值 的 栈 ， 你 就 需要 用 类 似 的 代码 实现 另 一 个 类 ， 也 就 是 把 所 有 的 String 都 替换 为 
double。 这 还 算 简 单 ， 但 如 果 我 们 需要 Transaction 类 型 的 栈 或 者 Date 类 型 的 队列 等 ， 情 况 就 
很 棘手 了 。 如 1.3.1.1 节 的 讨论 所 示 ，Java 的 参数 类 型 ( 泛 型 ) 就 是 专门 用 来 解决 这 个 问题 的 ， 而 且 
我 们 也 看 过 了 几 个 用 例 的 代码 (请 见 1.3.1.4 节 、1.3.1.5 节 、1.3.1.6 节 和 1.3.1.7 节 ) 。 但 如 何 才能 
实现 一 个 泛 型 的 栈 呢 ? 表 1.3.4 中 的 代码 展示 了 实现 的 细节 。 它 实现 了 一 个 FixedCapacityStack 
类 ， 该 类 和 FixedCapacityStackOfStrings 类 的 区 别 仅 在 于 加 粗 部 分 的 代码 一 一 我 们 把 所 有 的 
String 都 替换 为 Ttem ( 一 个 地 方 除 外 ， 会 在 稍 后 讨论 ) 并 用 下 面 这 行 代码 声明 了 该 类 : 

public class FixedCapacityStack<Item> 

Item 是 一 个 类 型 参数 ， 用 于 表示 用 例 将 会 使 用 的 某 种 具体 类 型 的 象征 性 的 占 位 符 。 
可 以 将 FixedCapacityStack<Item> 理解 为 某 种 元 素 的 栈 ， 这 正 是 我 们 想 要 的 。 在 实现 
FixedCapacityStack 时 ， 我 们 并 不 知道 Item 的 实际 类 型 ， 但 用 例 只 要 能 在 创建 栈 时 提供 具体 的 
数据 类 型 ， 它 就 能 用 栈 处 理 任意 数据 类 型 。 实 际 的 类 型 必须 是 引用 类 型 ， 但 用 例 可 以 依靠 自动 装 箱 
将 原始 数据 类 型 转换 为 相应 的 封装 类 型 。Java 会 使 用 类 型 参数 Ttem 来 检查 类 型 不 匹配 的 错误 一 一 
尽管 具体 的 数据 类 型 还 不 知道 ， 赋 予 Ttem 类 型 变量 的 值 也 必须 是 Item 类 型 的 ， 等 等 。 在 这 里 有 
一 个 细节 非常 重要 : 我 们 希望 用 以 下 代码 在 FixedCapacityStack 的 构造 函数 的 实现 中 创建 一 个 泛 
型 的 数组 : 


a = new Item[cap]; 


由 于 某 些 历史 和 技术 原因 ( 不 在 本 书 讲解 范围 之 内 ) ,创建 泛 型 数组 在 Java 中 是 不 允许 的 。 我 
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134| 











们 需要 使 用 类 型 转换 : 

a = Clten[]) new Object[cap]; 部 

这 段 代 码 才能 够 达到 我 们 所 期 望 的 效果 ( 但 Java 编译 器 会 给 出 一 条 警告 ， 不 过 可 以 忽略 它 ) ， 
我 们 在 本 书 中 会 一 直 使 用 这 种 方式 (Java 系 统 库 中 类 似 抽象 数据 类 型 的 实现 中 也 使 用 了 相同 的 方式 )。 


表 1.3.4 “一 种 表示 泛 型 定 容 栈 的 抽象 数据 类 型 
API public class FixedCapacityStack<Item> 








FixedCapacityStack(int cap) 创建 一 个 容量 为 cap 的 空 栈 
void push(Item item) 添加 一 个 字符 串 
Item popO . 删除 最 近 添 加 的 字符 申 
boolean isEmptyO = 了 栈 是 否 为 空 
int sizeO 栈 中 的 元 素数 量 
测试 用 例 public static void main(String[] args) 


{ 
， FixedCapacityStack<String> si 
S = new FixedCapacityStack<String>(100); 
while (!StdIn.isEmpty(O)) 
{ 


String item = StdIn. readStringO; 
if (litem.equals("-")) 
s.pushCitem) ; 
else if (!s.isEmpty()) StdOut.printCs.popO + " "); 


} 
StdOut.printIn("(" + s.size() + " left on stack)"); 


由 % more tobe.txt 
使用 记 法 to be or not to - be - - that - - - is 
% java FixedCapacityStack < tobe.txt 
to be not that or be (2 left on stack) 


数据 类 型 的 实现 public class FixedCapacityStack<Item> 
{ 


private Item[] a; // stack entries 
private int N; // size 

public FixedCapacityStackCint cap) 

{ a= (Item[]) new Object[cap]; } 

public boolean isEmptyO { return N == 0; } 
public int size() { return N; } 
public void push(Item item) 

{ af[N++] = item; } 

public Item pop() 

{ return a[--N]; } 
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1.3.2.3 ”调整 数组 大 小 

选择 用 数组 表示 栈 内 容 意味 着 用 例 必 须 预 先 估计 栈 的 最 大 容量 。 在 Java 中 ， 数 组 一 旦 创建 ， 
其 大 小 是 无 法 改变 的 ， 因 此 栈 使 用 的 空间 只 能 是 这 个 最 大 容量 的 一 部 分 。 选 择 大 容量 的 用 例 在 
栈 为 空 或 儿 乎 为 空 时 会 浪费 大 量 的 内 存 。 例 如 ， 一 个 交易 系统 可 能 会 涉及 数 十 亿 笔 交易 和 数 千 
个 交易 的 集合 。 即 使 这 种 系统 一 般 都 会 限制 每 笔 交 易 只 能 出 现在 一 个 集合 中 ， 但 用例 必须 保证 
所 有 集合 都 有 能 力 保存 所 有 的 交易 。 另 一 方面 ， 如 果 集 合 变 得 比 数组 更 大 那么 用 例 有 可 能 溢出 。 
为 此 ，push() 方法 需要 在 代码 中 检测 栈 是 否 已 满 ， 我 们 的 API 中 也 应 该 含有 一 个 isFu110) 方 
法 来 允许 用 例 检测 栈 是 否 已 满 。 我 们 在 此 省 略 了 它 的 实现 代码 ， 因 为 我 们 希望 用 例 从 处 理 栈 已 
满 的 问题 中 解脱 出 来 ， 如 我 们 的 原始 Stack API 所 示 。 因 此 ， 我 们 修改 了 数组 的 实现 ， 动 态 调 
整数 组 a[] 的 大 小 ， 使 得 它 既 足以 保存 所 有 元 素 ， 又 不 至 于 浪费 过 多 的 空间 。 实 际 上 ， 完 成 这 
些 目标 非常 简单 。 首 先 ， 实 现 一 个 方法 将 栈 移动 到 另 一 个 大 小 不 同 的 数组 中 : 


private void resizeCint max) 
人 // 将 大 小 为 N < = max 的 栈 移动 到 一 个 新 的 大 小 为 max 的 教 组 中 
Item[] temp = (Item[]) new Object[max]; 
for Cint 1 = 0; 1 < Ni i++) 
temp[i] = a[i]; 
a = temp; 
4 
现在 ， 在 push() 中 ,检查 数组 是 否 太 小 。 具 体 来 说 ， 我 们 会 通过 检查 栈 大 小 N 和 数组 大 小 
alength 是 否 相 等 来 检查 数组 是 否 能 够 容纳 新 的 元 素 。 如 果 没 有 多 余 的 空间 ， 我 们 会 将 数组 的 
长 度 加 倍 。 然 后 就 可 以 和 从 前 一 样 用 a[N++] = item 插入 新 元 素 了 : 
public void push(String item) 
{ // 将 元 素 压 入 栈 项 


if (N == a.length) resize(2*a.length); 
a[N++] = item; 


类 似 ， 在 popO 中 ， 首 先 删 除 栈 顶 的 元 素 ， 然 后 如 果 数 组 太 大 我 们 就 将 它 的 长 度 减 半 。 只 
要 稍 加 思考 ， 你 就 明白 正确 的 检测 条 件 是 栈 大 小 是 否 小 于 数组 的 四 分 之 一 。 在 数组 长 度 被 减 半 
之 后 ， 它 的 状态 约 为 半 满 ， 在 下 次 需要 改变 数组 大 小 之 前 仍然 能 够 进行 多 次 pushO 和 popO， -…- 
操作 。 136] 
pubtic String popG) 
萎 。// 从 槛 顶 删除 元 素 
String item = a[--N]; 
a[NJ = .nu11; “// 吉 免 对 象 游离 (请 昂 下 节 ) > 
if (N > 0 && N == a.length/4) resize(a.length/2); 
return item; ’ 





} 
在 这 个 实现 中 ， 栈 永远 不 会 溢出 ， 使 用 率 也 永远 不 会 低 于 四 分 之 一 〈 除非 栈 为 空 ， 那 种 情 
况 下 数组 的 大 小 为 1 ) -我 们 会 在 1.4 节 中 详细 分 析 这 种 实现 方法 的 性 能 特点 。 

push() 和 pop() 操作 中 数组 大 小 调整 的 轨迹 见 表 1.3.5。 
1.3.2.4 对象 游离 

Java 的 垃圾 收集 策略 是 回收 所 有 无 法 被 访问 的 对 象 的 内 存 。 在 我 们 对 pop() 的 实现 中 ,被 
弹出 的 元 素 的 引用 仍然 存在 于 数组 中 。 这 个 元 素 实 际 上 已 经 是 一 个 孤儿 了 一 一 它 永远 也 不 会 再 
被 访问 了 ， 但 Java 的 垃圾 收集 器 没 法 知道 这 一 点 ， 除 非 该 引用 被 覆盖 。 即 使 用 例 已 经 不 再 需要 
这 个 元 素 了 , 数组 中 的 引用 仍然 可 以 让 它 继续 存在 。 这 种 情况 ( 保存 一 个 不 需要 的 对 象 的 引用 ) 
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称 为 游离 。 在 这 里 ， 吉 免 对 象 游离 很 容易 ， 只 需 将 被 弹出 的 数组 元 素 的 值 设 为 nu11 即 可 ， 这 将 覆 
盖 无 用 的 引用 并 使 系统 可 以 在 用 例 使 用 完 被 弹出 的 元 素 后 回收 它 的 内 存 。 


表 1.3.5 一 系列 push() 和 pop() 操作 中 数组 大 小 调整 的 轨迹 





pushGO popO . N a.length 














0 1 

to 1 1 
be 2 2 
or 3 4 
not 4 
to 5 8 t y to null null null 
- to 4. null 1 null 
be 5 t EE :or be mu nujl nu 
be 4 Ru nll no n 
- not 3 null i 

* that 4 that 4 
= that 3 e null 1 nt Wu] ul1l 
= or 2 4 null null 
be 二 2 null 

137| is 2 大 is 

:1.3.2.5 选 代 


本 节 开 头 已 经 提 过 ,集合 类 数据 类 型 的 基本 操作 之 一 就 是 ， 能 够 使 用 Java 的 foreach 语句 通 
过 迁 代 亿 历 并 处 理 集合 中 的 每 个 元 素 。 这 种 方式 的 代码 既 清晰 又 简洁 ， 且 不 依赖 于 集合 数据 类 型 的 
其 体 实现 。 在 讨论 选 代 的 实现 之 前 ,我们 先 看 一 段 能 够 打印 出 一 个 字符 申 集合 中 的 所 有 元 素 的 用 例 
代码 : 8 

Stack<String> collection = new Stack<string>O; 


for (String s : collection) 
Stdout.println(s); 


这 里 ，foreach 语句 只 是 while 语句 的 一 种 简写 方式 ( 就 好 像 for 语句 一 样 ) 。 它 本 质 上 和 
以 下 while 语句 是 等 价 的 : 村 
， Iterator<String> i = collection.iterator(); 
while (i.hasNext()) 和 
{ 
String s = i.next(); 
StdOut.println(s); 
yp : 


这 段 代码 展示 了 一 些 在 任意 可 夫 代 的 集合 数据 类 型 中 我 们 都 需要 实现 的 东西 : 
口 集合 数据 类 型 必须 实现 一 个 iterator() 方法 并 返回 一 个 Tterator 对 象 ; 
， .Iterator 类 必须 包含 两 个 方法 : hasNext() ( 返回 一 个 布尔 值 ) 和 next() ( 返回 集合 中 的 
人 y 
在 Java 中 ,我们 使 用 接口 机 制 来 指定 一 个 类 所 必须 实现 的 方法 ( 请 见 1.2.5.4 节 ) 。 对 于 可 选 
代 的 集合 数据 类 型 ，Java 已 经 为 我 们 定义 了 所 需 的 接口 。 要 使 一 个 类 可 迭代 ， 第 一 步 就 是 在 它 的 声 
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明 中 加 入 implements Iterable<Item>， 对 应 的 接口 ( 即 javalang lterable ) 为 : 
public interface Iterable<Item> 


{ 


Iterator<Item> iteratorO); 


然后 在 类 中 添加 一 个 方法 iterator() 并 返回 一 个 迭代 器 Iterator<Item>。 和 迭代 器 都 
是 泛 型 的 ， 因 此 我 们 可 以 使 用 参数 类 型 Ttem 来 帮助 用 例 人 遍历 它们 指定 的 任意 类 型 的 对 象 。 
对 于 一 直 使 用 的 数组 表示 法 ， 我 们 需要 逆序 迭代 遍历 这 个 数组 ， 因 此 我 们 将 迭代 器 命名 为 
ReverseArrayIterator， 并 添加 了 以 下 方法 : 


public Iterator<Item> iterator() 
{ return new ReverseArrayIterator(); } 


迁 代 器 是 什么 ? 它 是 一 个 实现 了 hasNext() 和 next() 方法 的 类 的 对 象 ， 由 以 下 接口 所 定 
义 ( 即 javautiLIterator ) : 


public interface Iterator<Item> 
{ 

boolean hasNext(); 

Item nextO; 

void remove(); 


尽管 接口 指定 了 一 个 remove() 方法 ， 但 在 本 书 中 remove() 方法 总 为 空 ， 因 为 我 们 希望 避 
免 在 迭代 中 穿插 能 够 修改 数据 结构 的 操作 。 对 于 ReverseArrayIterator， 这 些 方法 都 只 需要 
一 行 代码 ， 它 们 实现 在 栈 类 的 一 个 嵌 套 类 中 : 

private class ReverseArrayIterator implements Iterator<Itemy 

private int 1 = Ni 


public boolean hasNext() { return i > 0; } ge 
public Item next©O { return a[--i]; } = 
-public void removeO { 下 5 
} 
请 注意 ， 幅 套 类 可 以 访问 包含 它 的 类 的 实例 变量 ， 在 这 里 就 是 a[] 和 N ( 这 也 是 我 们 使 用 幅 
套 类 实现 迭代 器 的 主要 原因 ) 。 从 技术 角度 来 说 ,为 了 和 Iterator 的 结构 保持 一 致 ， 我 们 应 该 
在 两 种 情况 下 抛 出 异常 : 如 果 用 例 调用 了 remove() 则 抛 出 UnsupportedOperationException， 
如 果 用 例 在 调用 next() 时 i 为 0 则 抛 出 NoSuchElementException 。 因 为 我 们 只 会 在 foreach 
语法 中 使 用 迭代 器 ， 这 些 情况 都 不 会 出 现 ， 所 以 我 们 省 略 了 这 部 分 代码 。 还 剩 下 一 个 非常 重要 的 
细节 ， 我 们 需要 在 程序 的 开头 加 上 下 面 这 条 语句 : 
import java.util.Iterator; = 
因为 ( 某 些 历史 原因 ) Tterator 不 在 java.lang 中 (尽管 Tterable 是 java.lang 的 一 部 分 ) : 
,现在 ,使 用 foreach 处 理 该 类 的 用 例 能 够 得 到 的 行为 和 使 用 普通 的 for 循环 访问 数组 一 样 ， 但 
它 无 知道 数据 的 表示 方法 是 数组 ( 即 实现 细节 ) = 对 于 我 们 在 本 书 中 学 习 的 和 Java 库 中 所 包含 
的 所 有 类 似 于 集合 的 基础 数据 类 型 的 实现 ， 这 一 点 非常 重要 。 例 如 ， 我 们 无 需 改变 任何 用 例 代 
码 就 可 以 随意 切换 不 同 的 表示 方法 。 更 重要 的 是 ;从 用 例 的 角度 素来 说 ， 无 需 知晓 类 的 实现 细 
节 用 例 也 能 使 用 选 代 。 一 
算法 1.1 是 Stack API 的 一 种 能 够 动态 改 数组 大 小 的 实现 。 用 例 能 够 创建 任意 类 型 数据 
的 栈 ， 并 支持 用 例 用 foreach 语句 按照 后 进 先 出 的 顺 库 送 代 访问 所 有 栈 元 素 。 这 个 实现 的 基础 
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是 Java 的 语言 特性 ， 包 括 Tterable 和 Iterator， 但 我 们 没有 必要 深究 这 些 特性 的 细节 ， 因 为 代 
码 本 身 并 不 复杂 ， 并 且 可 以 用 做 其 他 集合 数据 类 型 的 实现 的 模板 。 

例如 ， 我 们 在 实现 Queue 的 API 时， 可 以 使 用 两 个 实例 变量 作为 索引 ， 一 个 变量 head 指向 队 
列 的 开头 ， 一 个 变量 tail 指向 队列 的 结尾 ， 如 表 1.3.6 所 示 。 在 删除 一 个 元 素 时 ， 使 用 head 访问 
它 并 将 head 加 1; 在 插入 一 个 元 素 时 ,使 用 tail 保存 它 并 将 tail 加 1。 如 果 某 个 索引 在 增加 之 
后 越过 了 数组 的 边界 则 将 它 重 置 为 0。 实现 检查 队列 是 否 为 空 、 是 否 充满 并 需要 调整 数组 大 小 的 细 
节 是 一 项 有 趣 而 又 实用 的 编程 练习 ( 请 见 练习 1.3.14 ) 。 


表 1.3.6 ResizingArrayQueue 的 测试 用 例 的 轨迹 








Stdin StdOut a[l] 
N head tail 
(入 列 ) (出 列 ) 0 工 2 3 4 5 6 7 
5 0 5 to be or not to 
- to 4 和 5 be or not to 
be 5 1 6 be or not to be 
= be 4 4 6 or not to be 
= or 3 6 not to be 





在 算法 的 学 习 中 ,算法 1.1 十 分 重要 ， 因 为 它 几 乎 (但 还 没有 ) 达到 了 任意 集合 类 数据 类 型 的 
实现 的 最 佳 性 能 : 

口 每 项 操作 的 用 时 都 与 集合 大 小 无 关 ; 

口 空间 需求 总 是 不 超过 集合 大 小 乘 以 一 个 常数 。 

ResizingArrayQueue 的 缺点 在 于 某 些 push() 和 pop() 操作 会 调整 数组 的 大 小 :这 项 操作 的 
耗 时 和 栈 大 小 成 正比 。 下 面 ， 我 们 将 学 习 一 种 克服 该 缺陷 的 方法 ， 使 用 一 种 完全 不 同 的 方式 来 组 织 
数据 。 





算法 1.1 下 压 (LIFO) 栈 〈 能 够 动态 调整 数组 大 小 的 实现 ) 


import java.util,Iterator; 
public class ResizingArrayStack<Item> implements Iterable<Item> 





, 
private Item[] a = (Item[]) new 0bject[1]; // 栈 元 素 
private int N = 0; // 元 素数 量 
public boolean isEmpty() { return N == 0; } 
public int size() { return N; } 


private void resize(int max) 
{、// 将 栈 移动 到 一 个 大 小 为 max 的 新 数组 
Item[] temp = (Item[]) new Object[max]; 
for (int 1 = 0; 1 < N; i++) 
temp[i] = a[i]; 
a = temp; 
} 
public void push(Item item) 
{ // 将 元 素 添加 到 栈 顶 
if (N == a.length) resize(2*a.1length); 
a[N++] = item; 


public Item pop() 
全 // 从 栈 顶 删除 元 素 
Item item = a[--N]; 
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a[N] = nui1; // 过 多 对 象 游离 (请 见 1324 节 ) 
if (N >0 && N == a.length/4) Std Tength/2); 
return item; 


public Iterator<Item> iterator() 4 
{ return new ReverseArrayIteratorO); } 
private class ReverseArrayIterator implements Iterator<Item> 
{ /Y/ 支持 后 进 先 出 的 远 代 
private int i = Ni 
‘public boolean hasNextO 二 return i> 0; J} 
public Item next()  { return a[--i]; } 
public void remove() { } 
和 
} 


这 份 泛 型 的 可 迁 代 的 Stack API 的 实现 是 所 有 集合 类 抽象 数据 类 型 实现 的 模板 。 它 将 所 有 元 素 
保存 在 数组 中 ， 并 动态 调整 数组 的 大 小 以 保持 数组 大 小 和 栈 大 小 之 比 小 于 一 个 常数 。 





1.3.3 链表 

“现在 我 们 来 学 习 二 种 基础 数据 结构 的 使 用 ， 它 是 在 集合 类 的 抽象 数据 类 型 实现 中 表示 数据 
的 合适 选择 。 这 是 我 们 构造 非 Java 直接 支持 的 数据 结构 的 第 一 个 例子 。 我 们 的 实现 将 成 为 本 书 
Dt 加 复 亲 的 妆 折 的 物 浊 代 天 的 六 机。 所 以 清 生 外 网 污 本， 即使 你 已 经 使 用 过 链表 。 


定义 。 链 表 是 一 诈 半 归 的 所 结构， 它 或 者 为 空 (nu11)， 个) ， 
该 结 点 含有 一 个 泛 型 的 元 素 和 一 个 指向 另 一 条 链表 的 引用 。 


在 这 个 定义 中 ， 结 点 是 一 个 可 能 含有 任意 类 型 数据 的 抽象 实体 ， 它 所 包含 的 指向 结 点 的 应 
用 显示 了 它 在 构造 链表 之 中 的 作用 。 和 递归 程序 一 样 ， 递 归 数据 结构 的 概念 一 开始 也 令 人 费解 ， 
但 其 实 它 的 简洁 性 赋予 了 它 巨大 的 价值 。 
1.3.3.1 结 点 记录 

在 面向 对 象 编程 中 , 实现 链表 并 不 困难 。 我 们 首先 用 一 个 央 套 类 来 定义 结 点 的 抽象 数据 类 型 

private class Node 

i Item item; 


Node next; 
} 


一 个 Node 对 象 含有 两 个 实例 变量 .类 型 分 别 为 Item ( 参数 类 型 ) 和 Node。 我 们 会 在 需要 
使 用 Node 类 的 类 中 定义 它 并 将 它 标 记 为 private， 因 为 它 不 是 为 用 例 准备 的 。 和 任意 数据 类 型 
一 样 ,我 们 通过 new Node() 触发 (无 参数 的 ) 构造 函数 来 创建 一 个 Node 类 型 的 对 象 。 调 用 的 
结果 是 一 个 指向 Node 对 象 的 引用 ， 它 的 实例 变量 均 被 初始 化 为 nu11。Item 是 一 个 占 位 符 , 表 
示 我 们 希望 用 链表 处 理 的 任意 数据 类 型 (我 们 将 会 使 用 Java 的 泛 型 使 之 表示 任意 引用 类 型 ) ; 
Node 类 型 的 实例 变量 显示 了 这 种 数据 结构 的 链 式 本 质 。 为 了 强调 我 们 在 组 织 数据 时 只 使 用 了 
Node 类 ,我们 没有 定义 任何 方法 且 会 在 代码 中 直接 引用 实例 变量 如果 first 是 一 个 指向 某 个 
Node 对 象 的 变量 ， 我 们 可 以 使 用 first.item 和 first.node 访问 它 的 实例 变量 。 这 种 类 型 的 
类 有 时 也 被 称 为 记录 。 它们 实现 的 不 是 抽象 数据 类 型 因为 我 们 会 直接 使 用 其 实例 变量 。 但 是 在 
我 们 的 实现 中 。Node 和 它 的 用 例 代码 都 会 被 封装 在 相同 的 类 中 且 无 法 被 该 类 的 用 例 访问 ， 所 以 
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142] 我们 仍然 能 够 享受 数据 抽象 的 好 处 。 
1.3.3.2 ”构造 链表 1 
现在 ， 根 据 递归 定义 ， 我 们 只 需要 一 个 Node 类 型 的 变量 就 能 表示 一 条 链表 ， 只 要 保证 它 的 值 
是 nu11 或 者 指向 另 一 个 Node 对 象 且 该 对 象 的 next 域 指向 了 另 一 条 链表 即 可 。 例 如 ， 要 构造 一 条 
含有 元 素 ro、be 和 or 的 链表 ， 我 们 首先 为 每 个 元 素 创造 一 个 结 点 : 


Node first = new NodeO; 
Node second = new NodeO; 
Node third = new NodeO; 


并 将 每 个 结 点 的 item 域 设 为 所 需 的 值 ( 简单 起 见 ， 我 们 假设 在 这 些 例子 中 Ttem 为 String ) : 


first.item 
second. item 
third.item = "or 














然后 设置 next 域 来 构造 链表 : : 
first.next -= second; 2 i 二 
et Node:first. = nen hodeO; 
( 注意; third.next 仍然 是 nu11， 即 对 first 


象 创建 时 它 被 初始 化 的 值 。 ) 结果 是 ，third 是 
.一 条 链表 ( 它 是 一 个 结 点 的 引用 ， 该 结 点 指向 
和 人 Node second = new Node(); 
( 它 是 一 个 结 点 的 引用 ;， 生 该 结 点 售 有 一 个 指向 sees3 sond new NodeO; 
third 的 引用 ， 而 third 是 一 条 链表 ) ，first first.next = second; 








也 是 一 条 链表 ( 它 是 一 个 结 点 的 引用 ， 且 该 结 点 first second 
含有 一 个 指向 second 的 引用 ,. 而 second 是 一 FT Ne 

条 链表 ) 。 图 1.3.5 所 示 的 代码 以 不 同 的 顺序 完 = Ed 
成 了 这 些 赋值 语句 。 E ee 


链表 表示 的 是 一 列 元 素 。 在 我 们 刚刚 考察 过 Node third = new NodeO); 
的 例子 中 ，first 表示 的 序列 是 to、be、or。 我 。 itd iten om 
们 也 可 以 用 一 个 数组 来 表示 一 列 元 素 。 例 如 ， 可 六 
以 用 以 下 数组 表示 同一 列 字符 串 : 
String[] s = { "to", "be", "or" }; 
不 同 之 处 在 于 ， 在 链表 中 向 序列 插入 元 素 或 是 从 
序列 中 删除 元 素 都 更 方便 。 下 面 ， 我 们 来 学 习 完 
143| 成 这 些 任务 的 代码 。 
在 追踪 使 用 链表 和 其 他 链 式 结构 的 代码 时 ， 我 们 会 使 用 可 视 化 表示 方法 : 
口 用 长 方形 表示 对 象 ; 
口 将 实例 变量 的 值 写 在 长 方形 中 ; 
口 用 指向 被 引用 对 象 的 箭头 表示 引用 关系 。 
这 种 表示 方式 抓 住 了 链表 的 关键 特性 。 方 便 起见 ， 我 们 用 术语 链接 表示 对 结 点 的 引用 。 简 单 起 
“ 见 ， 当 元 素 的 值 为 字符 种 时 〔 如 我 们 的 例子 所 示 ) ,我 们 会 将 字符 串 写 在 长 方形 之 内 ， 而 非 使 用 1.2 
和 全 守 在 示 字 御 中 对 象 和 字 竺 数组。 这 种 可 视 化 的 表示 方式 使 我 们 能 够 将 注意 
力 集中 在 链表 上 。 





图 13.5 用 链接 构造 一 条 链表 

















1.3.3.3， 在 表 头 插入 结 点 

首先 , 假设 你 希望 向 一 _ 条 链表 中 搬入 一 个 新 的 结 点 。 最 容易 做 到 这 一 点 的 地 方 就 是 链表 的 开头 。 
例如 ， 要 在 首 结 点 为 fi rst 的 给 定 链表 开头 插 人 字符 串 not, 我 们 先 将 first 保存 在 o1dfirst 中 ， 
然后 将 一 个 新 结 点 赋予 first， 并 将 它 的 item 域 设 为 hot，next 域 设 为 oldfirst。 以 上 过 程 如 
图 1.3.6 所 示 。 这 段 在 链表 开头 插入 一 个 结 点 的 代码 只 需要 几 行 赋值 语句 ， 所 以 它 所 需 的 时 间 和 链 
表 的 长 度 无 关 。 ? 
1.3.3.4 “从 表 头 删除 结 点 

接 下 来 ， 假 设 你 希望 删除 一 条 链表 的 首 结 点 。 这 个 操作 更 简单 : 只 需 将 first 指向 first， 
next 即 可 。 一 般 来 说 你 可 能 会 希望 在 赋值 之 前 得 到 该 元 素 的 值 ， 因 为 一 旦 改变 了 first 的 值 ， 就 
再 也 无 法 访问 它 曾经 指向 的 结 点 了 。 曾 经 的 结 点 对 象 变 成 了 一 个 孤儿 ，Java 的 内 存 管理 系统 最 终 将 
回收 它 所 占用 的 内 存 。 和 以 前 一 样 ， 这 个 操作 只 含有 一 条 赋值 语句 ， 因 此 它 的 运行 时 间 和 链表 的 长 
度 无 关 。 此 过 程 如 图 1.3.7 所 示 。 
保存 指向 链表 的 链接 


. Node oldfirst = first; 
oldfirst 


first [fo | 
3 [5e | or 
r= Cad 


创建 新 的 首 结 点 
first = new Node(); 
oldfirst 


first 柯 
上 -4 Fo 一 二 
2 Lor 一 
Cr first - first.next; 


设置 新 结 点 中 的 实例 变量 


first.item = "not"; 
first.next = oldfirst; 


ne [pe | 
-一 er [or | 


| 


first 





图 1.3.6， 在 链表 的 开头 插入 一 个 新 结 点 . 图 1.3.7 ”删除 链表 的 首 结 点 


1.3.3.5” 在 表 尾 插入 结 点 
如 何 才能 在 链表 的 尾部 添加 一 个 新 结 点 ? 要 完成 这 个 任务 ， 我 们 需要 一 个 指向 链表 最 后 一 个 结 
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点 的 链接 ， 因 为 该 结 点 的 链接 必须 被 修改 并 指向 一个 含有 新 元 素 的 新 结 点 。 我 们 不 能 在 链表 代码 


中 草率 地 决定 维护 一 个 额外 的 链接 ,因为 每 个 修改 链表 的 操作 都 需要 添加 检查 是 否 要 修改 该 变量 
(以 及 作出 相应 修改 ) 的 代码 。 例 如 ， 我 们 刚刚 讨论 过 的 删除 链表 首 结 点 的 代码 就 可 能 改变 指向 
链表 的 尾 结 点 的 引用 ， 因 为 当 链 表 中 只 有 一 个 结 点 时 ， 它 既是 首 结 点 又 是 尾 结 点 ! 另外 ， 这 段 代 
和 码 也 无 法 处 理 链表 为 空 的 情况 ( 它 会 使 用 空 链接 )。 类 似 这 些 情况 的 细节 使 链表 代码 特别 难以 调试 
在 链表 结尾 插入 新 结 点 的 过 程 如 图 1.3.8 所 示 。 
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1.3.3.6 ”其 他 位 置 的 插入 和 删除 操作 
总 的 来 说 ， 我 们 已 经 展示 了 在 链表 中 


- 如 何 通过 若干 指令 实现 以 下 操作 ， 其 中 我 


“保存 指向 尾 结 点 的 链接 


Node oldlast = last; 


odlast 


们 可 以 通过 first 链接 访问 链表 的 首 结 点 一 上 了 
并 通过 1ast 链接 访问 链表 的 尾 结 点 : -= 对 一 
口 在 表 头 插入 结 点 ; 
口 从 表 头 删除 结 点 ; 他 于 间 的 天 缚 避 
1 = NodeO; 
口 在 表 必 订 人 结 点。 i 
其 他 操作 ， 例 如 以 下 几 种 ， 就 不 那么 os 
容易 实现 了 : Wi ee 
bs [or ] 
口 删除 指定 的 结 点 ; 2 = 已 中 图 
口 在 指定 结 点 前 插入 一 个 新 结 点 。 ee 


例如 ， 我 们 怎样 才能 删除 链表 的 尾 
结 点 呢 ? 1ast 链接 帮 不 上 人 忙 ， 因 为 我 们 
需要 将 链表 尾 结 点 的 前 一 个 结 点 中 的 链接 
( 它 指向 的 正 是 1ast ) 值 改 为 nu11。 在 
缺少 其 他 信息 的 情况 下 ， 唯 一 的 解决 办 法 
就 是 遍历 整 条 链表 并 找 出 指向 last 的 结 点 
(请 见 下文 以 及 练习 1.3.19 ) 。 这 种 解决 
方案 并 不 是 我 们 想 要 的 ， 因 为 它 所 需 的 时 间 和 链表 的 长 度 成 正比 。 实 现任 意 插入 和 删除 操作 的 标准 
解决 方案 是 使 用 双向 链表 ， 其 中 每 个 结 点 都 含有 两 个 链接 ， 分 别 指向 不 同 的 方向 。 我 们 将 实现 这 些 
操作 的 代码 留 做 练习 ( 请 见 练习 1.3.31 ) 。 我 们 的 所 有 实现 都 不 需要 双向 链表 。 
1.3.3.7 遍历 

要 访问 一 个 数组 中 的 所 有 元 素 ， 我 们 会 使 用 如 下 代码 来 循环 处 理 a[] 中 的 所 有 元 素 : 


for Cint 1 = 0; 1 < N; i++) 


oldlast.next = last; 
ondlasr 


ne Nig 


图 1.3.8 在 链表 的 结尾 插入 一 个 新 结 点 


// 处 理 a[i] 


访问 链表 中 的 所 有 元 素 也 有 一 个 对 应 的 方式 : 将 循环 的 索引 变量 x 初始 化 为 链表 的 首 结 点 ， 然 
后 通过 x.item 访问 和 x 相关 联 的 元 素 ， 并 将 x 设 为 x.next 来 访问 链表 中 的 下 一 个 结 点 ， 如 此 反 
复 直 到 x 为 nu11 为 止 (这 说 明 我 们 已 经 到 达 了 链表 的 结尾 ) 。 这 个 过 程 被 称 为 链表 的 遍历 ， 可 以 
用 以 下 循环 处 理 链表 的 每 个 结 点 的 代码 简洁 表达 ， 其 中 fi rst 指向 链表 的 首 结 点 ， 


for (Node x = first; x != nul1; x = x.next) 


// 处 理 x.item 


这 种 方式 和 迁 代 遍历 一 个 数组 中 的 所 有 元 素 的 标准 方式 一 样 自 然 。 在 我 们 的 实现 中 ， 它 是 迭代 
器 使 用 的 基本 方式 ， 它 使 用 例 能 够 选 代 访 问 链表 的 所 有 元 素 而 无 需 知道 链表 的 实现 细节 。 
1.3.3.8 栈 的 实现 

有 了 这 些 预备 知识 ， 给 出 我 们 的 Stack API 的 实现 就 很 简单 了 。 如 94 页 的 算法 1.2 所 示 。 它 将 
栈 保存 为 一 条 链表 ， 栈 的 顶部 即 为 表 头 ， 实 例 变量 first 指向 栈 顶 。 这 样 ， 当 使 用 pushQ 压 和 一 
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个 元 素 时 ， 我 们 会 按照 1.3.3.3 节 所 讨论 的 代码 将 该 元 素 添加 在 表 头 ; 当 使 用 pop 〇 删除 一 个 元 素 
时 ， 我 们 会 按照 1.3.3.4 节 讨论 的 代码 将 该 元 素 从 表 头 删除 。 要 实现 sizeQ 方法 ， 我 们 用 实例 变量 
N 保存 元 素 的 个 数 ， 在 压 人 元 素 时 将 N 加 1， 在 弹出 元 素 时 将 N 减 1。 要 实现 isEmpty() 方法 ， 只 
需 检查 fi rst 是 否 为 nu11 (或 者 可 以 检查 N 是 否 为 0) 。 该 实现 使 用 了 泛 型 的 Ttem 一 一 你 可 以 认 
为 类 名 后 的 <Ttem> 表示 的 是 实现 中 所 出 现 的 所 有 Item 都 会 蔡 换 为 用 例 所 提供 的 任意 数据 类 型 的 
名 称 ( 请 见 13.2.2 节 ) 。 我 们 暂时 省 略 了 关于 选 代 的 代码 并 将 它们 留 到 算法 1.4 中 继续 讨论 。 图 1.3.9 
显示 了 我 们 所 常用 的 测试 用 例 的 轨迹 ( 测试 用 例 代码 放 在 了 图 后 面 ) 。 链 表 的 使 用 达到 了 我 们 的 最 
优 设计 目标 : 

口 它 可 以 处 理 任意 类 型 的 数据 ; 

口 所 需 的 空间 总 是 和 集合 的 大 小 成 正比 ; 

口 操作 所 需 的 时 间 总 是 和 集合 的 大 小 无 关 。 


StdIn StdOut 


to 
be 


or 


思 思 图 


中 


not 


to 


be 


时 加 力 辆 蜗 


时 


回国 加 
旧 


二 a 图 1.3.9 stack 的 开发 用 例 的 轨迹 
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public static void main(String{] args) 

后 // 创建 一 个 栈 并 根据 StdIn 中 的 指示 压 入 或 弹出 字符 囊 
Stack<String> s - new Stack<String>(); 
while (C!Stdin.isEmptyO) 

String item = Std 
if ( n, equalst 


5,push(item) 
else if (!s.isEmpty()) StdOut.print(s.popO + ™ ™); 


eadString() 
) 





StdOut.printin("(" + s.size() + " Yeft on stack)"); 


Stack 的 测试 用 例 


这 份 实现 是 我 们 对 许多 算法 的 实现 的 原型 。 它 定义 了 链表 数据 结构 并 实现 了 供用 例 使 用 的 方法 

push() 和 popQ, 仅 用 了 少量 代码 就 取得 了 所 期 望 的 效果 。 算 法 和 数据 结构 是 相辅相成 的 。 在 本 例 中 ， 

147| 算法 的 实现 代码 很 简单 ， 但 数据 结构 的 性 质 却 并 不 简单 ， 我 们 用 了 好 几 页 纸 来 说 明 这 些 性 质 。 这 种 
148| 数据 结构 的 定义 和 算法 的 实现 的 相互 作用 很 常见 ， 也 是 本 书 中 我 们 对 抽象 数据 类 型 的 实现 重点 。 














算法 1.2 下 压 堆栈 (链表 实现 ) 


public class Stack<Item> 





plements Iterable<Iten 





private Node first; // 栈 顶 (最 近 添加 的 元 素 ) 
private int N; // 元 素数 量 
private class Node 
{ // 定义 了 结 点 的 谍 套 类 
Item item; 
Node next; 


} 
public boolean isEmpty() { 
public int size() { 
public void push(Item item) 
{ // 向 栈 顶 添加 元 素 
Node oldfirst = first; 
first = new NodeO); 
first.item = item; 
first.next = oldfirst; 
N++; 


return first == null; } // 或 : N == 0 
return N; } 


和 
public Item pop() 
{ // 从 栈 顶 删除 元 素 
Item item = first.item; 
first = first.next; 
Ns 
return item; 
} 
// iterator() 的 实现 请 见 算法 1.4 
// 测试 用 例 main() 的 实现 请 见 本 节 前 面部 分 
} % more tobe.txt 


这 份 泛 型 的 Stack 实现 的 基础 是 链表 数据 结构 。 。 me or no tm 


它 可 以 用 于 创建 任意 数据 类 型 的 栈 。 要 支持 迭代 ,请 
添加 算法 1.4 中 为 Bag 数 据 类 型 给 出 的 加 粗 部 分 的 代码 。 
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% java Stack < tobe.txt 
to be not that or be (2 left on stack) 
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不 3.3.9 ”队列 的 实现 3 

基于 链表 数据 结构 实现 Queue API 也 很 简单 ， 如 算法 1.3 所 示 。 它 将 队列 表示 为 一 条 从 最 早 插 
人 的 元 素 到 最 近 插 和 人 的 元 素 的 链表 ， 实 例 变 量 fi rst 指向 队列 的 开头 ， 实 例 变量 1ast 指向 队列 的 
结尾 。 这 样 , 要 将 一 个 元 素 人 列 (enqueue() ) , 我 们 就 将 它 添加 到 表 尾 ( 请 见 图 1.3.8 中 讨论 的 代码 ， 
但 是 在 链表 为 空 时 需要 将 first 和 1ast 都 指向 新 结 点 ) ; 要 将 一 个 元 素 出 列 (dequeue() ) ,我 
们 就 删除 表 头 的 结 点 ( 代码 和 Stack 的 popQ 〇 方法 相同 ， 只 是 当 链 表 为 空 时 需要 更 新 1ast 的 值 ) 。 
size() 和 isEmpty0 方法 的 实现 和 Stack 相同 。 和 Stack 一 样 ，Queue 的 实现 也 使 用 了 泛 型 参数 
Item。 这 里 我 们 省 略 了 支持 迭代 的 代码 并 将 它们 留 到 算法 1.4 中 继续 讨论 。 下 面 所 示 的 是 一 个 开发 
用 例 ， 它 和 我 们 在 Stack 中 使 用 的 用 例 很 相似 ， 它 的 轨迹 如 算法 1.3 所 示 。Queue 的 实现 使 用 的 数 
据 结构 和 Stack 相同 一 一 链表 ， 但 它 实现 了 不 同 的 添加 和 删除 元 素 的 算法 ， 这 也 是 用 例 所 看 到 的 后 
进 先 出 和 先进 后 出 的 区 别 所 在 。 和 刚才 一 样 ， 我 们 用 链表 达到 了 最 优 设计 目标 : 它 可 以 处 理 任意 类 
型 的 数据 ， 所 需 的 空间 总 是 和 集合 的 大 小 成 正比 ， 操 作 所 需 的 时 间 总 是 和 集合 的 大 小 无 关 。 区 


public static void main(String[] args) 
{ // 创建 一 个 队列 并 操作 字符 事 入 列 或 出 到 


Queue<String> q = new Queue<String>(); 
while (!StdIn.isEmpty()) 
{ 


String item = StdIn.readStringO ; 
if (litem.equals("-")) 
q.enqueue(item)’; 
else if (lq.isEmptyO)) StdOut.print(q,dequeueO + " "); 


StdOut ,println("(" + q.size() + " left on queue)"); 
Queue 的 测试 用 例 的 


% more tobe.txt 
to be or not to - be - - that - - - is 


% java Queue < tobe.txt 
to be or not to be (2 left on queue) 


算法 1.3 ”先进 先 出 队列 二 

















pubTic class Queue<Item> implements Iterable<Item> 
{ 
private Node first; // 指向 最 早 添加 的 结 点 的 链接 
private Node last; // 指向 最 近 添 加 的 结 点 的 链接 “ ys 
private int N; // 队列 中 的 元 素数 量 
private class Node 
{ // 定 头 了结 点 的 谋 窒 类 


全 这 里 原 书 应 该 是 因为 版 面 原因 没有 使 用 列表 ,如 果 版 面 允 许可 以 使 用 和 Stack 部 分 相同 的 列表 显示 这 三 个 目标 。 
一 一 译 者 注 
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Item item; 
Node next; 


和 
public boolean isEmptyO { return first == null; } // 或 : N == 0. 
public int sizeO { return N; } : 
public void enqueue(Item item) 
人 { // 向 表 尾 添加 元 素 
Node oldlast = last; 
last = new NodeQO); 
1ast.item = item; 
last.next = null; 
if (isEmpty(O) first = last; 
else oldlast.next = last; 
N++; 
时 
public Item dequeue() 
人 { // 从 表 关 删除 元 素 
Item item = first.item; 
first = first.next; 
if (isEmptyO) last = null; 
N--; 
return item; 
// iterator() 的 实现 请 见 算法 1.4 
// 测试 用 例 main() 的 实现 请 见 前 面 
} 
这 份 泛 型 的 Queue 实现 的 基础 是 链表 数据 结构 。 它 可 以 用 于 创建 任意 数据 类 型 的 队列 。 要 支持 选 代 ， 
[5 请 添加 算法 1.4 中 为 Bag 数据 类 型 给 出 的 加 粗 部 分 的 代码 。 








Queue 的 开发 用 例 的 轨迹 如 图 1.3.10 所 示 。 

在 结构 化 存储 数据 集 时 ， 链 表 是 数组 的 一 种 重要 的 替代 方式 。 这 种 替代 方案 已 经 有 数 十 年 的 历 
史 。 事 实 上 ， 编 程 语言 历史 上 的 一 块 里 程 碑 就 是 McCathy 在 20 世纪 50 年 代 发 明 的 LISP 语言 ， 而 
链表 则 是 这 种 语言 组 织 程序 和 数据 的 主要 结构 。 在 练习 中 你 会 发 现 ， 链 表 编 程 也 会 遇 到 各 种 问题 ， 
且 调 试 十 分 困难 。 在 现代 编程 语言 中 ， 安 全 指针 、 自 动 垃圾 回收 ( 请 见 1.2 节 答疑 部 分 ) 和 抽象 数 
据 类 型 的 使 用 使 我 们 能 够 将 链表 处 理 的 代码 封装 在 若干 个 类 中 ， 正 如 本 文 所 述 。 
1.3.3.10 ”背包 的 实现 

用 链表 数据 结构 实现 我 们 的 Bag API 只 需要 将 Stack 中 的 push() 改名 为 addC) ， 并 去 掉 
pop() 的 实现 即 可 ， 如 算法 1.4 所 示 (也 可 以 用 相同 的 方法 实现 Queue， 但 需要 的 代码 更 多 ) 。 
在 这 份 实现 中 ,加 粗 部 分 的 代码 可 以 通过 遍历 链表 使 Stack 、Queue 和 Bag 变 为 可 迭代 的 。 对 
于 Stack， 链 表 的 访问 顺序 是 后 进 先 出 ; 对 于 Queue， 链 表 的 访问 顺序 是 先进 先 出 ; 对 于 Bag， 
它 正 好 也 是 后 进 先 出 的 顺序 ， 但 顺序 在 这 里 并 不 重要 。 如 算法 1.4 中 加 粗 部 分 的 代码 所 示 ， 要 在 
集合 数据 类 型 中 实现 迭代 ， 第 一 步 就 是 要 添加 下 面 这 行 代码 ， 这 样 我 们 的 代码 才能 引用 Java 的 
Iterator 接口 : 


import java.util.Iterator; 
第 二 步 是 在 类 的 声明 中 添加 这 行 代码 ， 它 保证 了 类 必然 会 提供 一 个 iterator() 方法 : 


implements Iterable<Item> 
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is Fa 
图 1.3.10 Queue 的 开发 用 例 的 轨迹 


iterator() 方法 本 身 只 是 简单 地 从 实现 了 lterator 接口 的 类 中 返回 一 个 对 象 : 


public Iterator<Item> iterator() 
{ return new ListIterator(); } 


这 段 代码 保证 了 类 必然 会 实现 方法 hasNext() 、next() 和 remove() 供用 例 的 foreach 语 
法 使 用 。 要 实现 这 些 方法 ， 算 法 1.4 中 的 嵌 套 类 ListIterator 维护 了 一 个 实例 变量 current 
来 记录 链表 的 当前 结 点 。hasNext () 方法 会 检测 current 是 否 为 nu11，next( 方法 会 保存 当 132 
前 元 素 的 引用 ,将 current 变量 指向 链表 中 的 下 个 结 点 并 返回 所 保存 的 引用 。 154 
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算法 1.4 背包 EN 





import java.util. Iterator; * 
public -class Bag<Item> implements Iterable<Item> 
党 
private Node first; // 链表 的 首 结 点 
private class Node 
{ 
Item item; 
Node next; 


public void add(Ttem item) 

{ // 和 Stack 的 push() 方法 完全 相同 
Node oldfirst = first; 
first = new NodeO; 
first.item = item; 
first.next = oldfirst; 

} 

public ITterator<Item> iteratorO 

{ nm new ListIterator(); } 

private class ListIterator implements Iterator<Item> 

成 








private Node current = first; 
public boolean hasNext() 

{ return current != null; } 
public void remove() { } 
public Item next() 


Item item = current.item; 
current = current.next; 
return item; 
bs 
和 
* 


这 份 Bag 的 实现 维护 了 一 条 链表 ， 用 于 保存 所 有 通过 add() 添加 的 元 素 。size() 和 isEmpty() 方 
法 的 代码 和 Stack 中 的 完全 相同 ， 因 此 在 此 处 省 略 。 和 迭代 器 会 遍历 链表 并 将 当前 结 点 保存 在 current 变 
量 中 。 我 们 可 以 将 加 粗 的 代码 添加 到 算法 1.1 和 算法 1.2 中 使 stack 和 Queue 变 为 可 迭代 的 ， 因 为 它们 
背后 的 数据 结构 是 相同 的 ， 只 是 Stack 和 Queue 的 链表 访问 顺序 分 别 是 后 进 先 出 和 先进 先 出 而 已 。 





1.3.4 综述 


在 本 节 中 ; 我们 所 学 习 的 支持 泛 型 和 选 代 的 背包 、 队 列 和 栈 的 实现 所 提供 的 抽象 使 我 们 能 够 纺 
写 简洁 的 用 例 程序 来 操作 对 象 的 集合 。 深 入 理解 这 些 抽象 数据 类 型 非常 重要 ， 这 是 我 们 研究 算法 和 
数据 结构 的 开始 。 原 因 有 三 : 第 一 ， 我 们 将 以 这 些 数据 类 型 为 基石 构造 本 书 中 的 其 他 更 高 级 的 数据 
结构 ;第 二 ， 它 们 展示 了 数据 结构 和 算法 的 关系 以 及 同时 满足 多 个 有 可 能 相互 冲突 的 性 能 目标 时 所 
要 面 对 的 挑战 ; ,第 三 到 人 人 学习 的 闪光 实现 和 可 是 雪 并 了 风 后 交 拓 枯 和 
对 对 象 集合 的 强大 操作 ， 这 些 实现 正 是 我 们 的 起 点 。 
数据 结构 区 

我 们 现在 拥有 两 种 表示 对 象 集合 的 方式 ， 即 数组 和 链表 (如 表 1.3.7 所 示 ) 。Java 内 置 了 数组 
链表 也 很 容易 使 用 Java 的 标准 方法 实现 。 两 者 都 非常 基础 常常 被 称 为 顺序 存 偿 和 链 式 存储 。 在 本 
书后 面部 分 ， 我 们 会 在 各 种 抽象 数据 类 型 的 实现 中 将 多 种 方式 结 归并 扩展 这 些 基本 的 数据 结构 。 其 


-中 一 种 重要 的 扩展 就 是 各 种 含有 多 个 链接 的 数据 结构 。 例 如 ，3.2 节 和 3.3: 节 的 重点 就 是 被 称 为 二 又 
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树 的 数据 结构 ， 它 由 含有 两 个 链接 的 结 点 组 成 。 另 一 个 重要 的 扩展 是 复合 型 的 数据 结构 : 我们 可 以 
使 用 背包 存储 栈 , 用 队列 存储 数组 , 等 等 。 例如 , 第 4 章 的 主题 是 图 , 我 们 可 以 用 数组 的 背包 表示 它 。 
用 这 种 方式 很 容易 定义 任意 复杂 的 数据 结构 ， 而 我 们 重点 研究 抽象 数据 类 型 的 一 个 重要 原因 就 是 试 
图 控制 这 种 复杂 度 。 


表 1.3.7 基础 数据 结构 








数据 结构 优点 缺点 
数组 通过 索引 可 以 直接 访问 任意 元 素 在 初始 化 时 就 需要 知道 元 素 的 数量 
链表 使 用 的 空间 大 小 和 元 素数 量 成 正比 需要 通过 引用 访问 任意 元 素 





我 们 在 本 节 中 研究 背包 、 队 列 和 栈 时 描述 数据 结构 和 算法 的 方式 是 全 书 的 原型 (本 书 中 的 数据 
结构 示例 见 表 1.3.8 ) 。 在 研究 一 个 新 的 应 用 领域 时 ， 我 们 将 会 按照 以 下 步骤 识别 目标 并 使 用 数据 抽 
象 解决 问题 : 

口 定 义 API; 

口 根据 特定 的 应 用 场景 开发 用 例 代码 ; 

口 描述 一 种 数据 结构 ( 一 组 值 的 表示 ) ， 并 在 API 所 对 应 的 抽象 数据 类 型 的 实现 中 根据 它 定 

义 类 的 实例 变量 ; 

口 描述 算法 〈 实现 一 组 操作 的 方式 ) ， 并 根据 它 实 现 类 中 的 实例 方法 ; 

口 分 析 算法 的 性 能 特点 。 

在 下 一 节 中 ,我们 会 详细 研究 最 后 一 步 ， 因 为 它 常 常 能 够 决定 哪 种 算法 和 实现 才 是 解决 现实 应 
用 问题 的 最 佳 选择 。 


表 1.3.8 本 书 所 给 出 的 数据 结构 举例 





数据 结构 章 节 抽象 数据 类 型 数据 表示 
父 链接 树 ls UnionFind 整 型 数组 
二 分 查找 树 a BST 含有 两 个 链接 的 结 点 
字符 中 541 String 数组 、 偏 移 量 和 长 度 
二 又 堆 2.4 PQ 对 象 数组 
散 列 表 (拉链 法 ) 34 SeparateChainingHashsT ”链表 数组 
散 列表 (线性 探测 法 ) 34 LinearprobingHashST 。 。 两 个 对 象 数组 
图 的 邻接 链表 41、42 Graph Bag 对 象 的 数组 
单词 查找 树 52 TriesT 含有 链接 数组 的 结 点 
三 向 单词 查找 树 53 TST 含有 三 个 链接 的 结 点 





问 并 不 是 所 有 编程 语言 都 支持 泛 型 ， 甚 至 Java 的 早期 版 本 也 不 支持 。 有 其 他 替代 方案 吗 ? 

答 ”如 正文 所 述 ， 一 种 替代 方法 是 为 每 种 类 型 的 数据 都 实现 一 个 不 同 的 集合 数据 类 型 。 另 一 种 方法 是 构 
造 一 个 Object 对 象 的 栈 ， 并 在 用 例 中 使 用 pop() 时 将 得 到 的 对 象 转换 为 所 需 的 数据 类 型 。 这 种 方 
式 的 问题 在 于 类 型 不 匹配 错误 只 能 在 运行 时 发 现 。 而 在 泛 型 中 ， 如 果 你 的 代码 将 错误 类 型 的 对 象 压 
入 栈 中 ， 比 如 这 样 : 
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Stack<Apple> stack = new Stack<Apple>O; 
Apple a = new AppleOi 


Orange b = new Orange(O); 

stack.pushCa); 

stack.pushCb); 。。 // 编译 时 钳 误 

会 得 到 一 个 编译 时 错误 : 

push(Apple) in Stack<Apple> cannot be applied to (Orange) 

能 够 在 编译 时 发 现 错误 足以 说 服 我 们 使 用 泛 型 。 

为 什么 Java 不 允许 泛 型 数组 ? 

专家 们 仍然 在 争论 这 一 点 。 你 可 能 也 需要 成 为 专家 才能 理解 它 ! 对 于 初学 者 ， 请 先 了 解 共 变数 组 
(covariant array ) 和 类 型 擦 除 (type erasure ) 。 

如 何 才 能 创建 一 个 字符 串 栈 的 数组 ? 

使 用 类 型 转换 ， 比 如 : 

Stack<String>[] a = (Stack<String>[]) new Stack[N]; 

警告 ,这 段 类 型 转换 的 用 例 代码 和 1.3.2.2 节 所 示 的 有 所 不 同 。 你 可 能 会 以 为 需要 使 用 Object 而 非 
Stack。 在 使 用 泛 型 时 ，Java 会 在 编译 时 检查 类 型 的 安全 性 ， 但 会 在 运行 时 抛弃 所 有 这 些 信息 。 因 
此 在 运行 时 语句 右 侧 就 变 成 了 Stack<0bject>[] 或 者 只 剩 下 了 Stack[] ， 因 此 我 们 必须 将 它们 转化 
为 Stack<String>[]。 

在 栈 为 空 时 调用 pop (0) 会 发 生 什么 ? 

这 取决 于 实现 。 对 于 我 们 在 算法 1.2 中 给 出 的 实现 ， 你 会 得 到 一 个 Nu11PointerException 异常 。 
对 于 我 们 在 本 书 的 网 站 上 给 出 的 实现 , 我 们 会 抛 出 一 个 运行 时 异常 以 帮助 用 户 定位 错误 。 一 - 般 来 说 ， 
在 应 用 广泛 的 代码 中 这 类 检查 越 多 越 好 。 

既然 有 了 链表 ， 为 什么 还 要 学 习 如 何 调整 数组 的 大 小 ? 

我 们 还 将 会 学 习 若干 抽象 数据 类 型 的 示例 实现 , 它们 需要 使 用 数组 来 实现 一 些 链表 难以 实现 的 操作 。 
ResizingArrayStack 是 控制 它们 的 内 存 使 用 的 样板 。 

为 什么 将 Node 声明 为 嵌 套 类 ? 为 什么 使 用 private ? 

将 Node 声明 为 私有 的 嵌 套 类 之 后 ， 我 们 可 以 将 Node 的 方法 和 实例 变量 的 访问 范围 限制 在 包含 它 的 
类 中 。 私 有 赃 套 类 的 一 个 特点 是 只 有 包含 它 的 类 能 够 直接 访问 它 的 实例 变量 ， 因 此 无 需 将 它 的 实例 
变量 声明 为 public 或 是 private。 专 业 背景 较 强 的 读者 注意 : 非 静态 的 嵌 套 类 也 被 称 为 内 部 类 ， 
因此 从 技术 上 来 说 我 们 的 Node 类 也 是 内 部 类 ， 尽 管 非 泛 型 的 类 也 可 以 是 静态 的 。 

当 我 输入 javac Stack.java 运行 算法 12 和 其 他 程序 时 ， 我 发 现 了 Stack class 和 StackSNode class 
两 个 文件 。 第 二 个 文件 是 做 什么 用 的 ? 

第 二 个 文件 是 为 内 部 类 Node 创建 的 。Java 的 命名 规则 会 使 用 $ 分 隔 外 部 类 和 内 部 类 。 

Java 标准 库 中 有 栈 和 队列 吗 ? 

有 ， 也 没有 。Java 有 一 个 内 置 的 库 ， 叫 做 java.util.Stack， 但 你 需要 栈 的 时 候 请 不 要 使 用 它 。 它 新 增 
了 几 个 一 般 不 属于 栈 的 方法 ， 例 如 获取 第 i 个 元 素 。 它 还 允许 从 栈 底 添加 元 素 ( 而 非 栈 顶 ) ， 所 以 
它 可 以 被 当做 队列 使 用 ! 尽管 拥有 这 些 额 外 的 操作 看 起 来 可 能 很 有 用 ,但 它们 其 实 是 累 熬 。 我 们 使 
用 某 种 数据 类 型 不 仅仅 是 为 了 获得 我 们 能 够 想象 的 各 种 操作 ， 也 是 为 了 准确 地 指定 我 们 所 需要 的 操 
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作 。 这 么 做 的 主要 好 处 在 于 系统 能 够 防止 我 们 执行 一 些 意外 的 操作 。java-utilLStack 的 API 是 宽 接口 
的 - -个 典型 例子 ， 我 们 通常 会 极力 避免 出 现 这 种 情况 。 
是 否 允 许 用 例 向 栈 或 队列 中 添加 空 (nu11 ) 元 素 ? 


在 Java 中 实现 集合 类 数据 类 型 时 这 个 问题 是 很 常见 的 。 我 们 的 实现 ( 以 及 Java 的 栈 和 队列 库 ) 允许 - 


插入 nu11 值 。 

如 果 用 例 在 迭代 中 调用 push() 或 者 popC)，Stack 的 迭代 器 应 该 怎么 办 ? 

作为 -个 快速 出 错 的 迭代 器 ， 它 应 该 立即 抛 出 一 个 java.uti1.ConcurrentModifi-cationException 
常 。 请 见 练习 1.3.50。 2 

我 们 能 够 用 foreach 循环 访问 数组 吗 ? 

可 以 (尽管 数组 没有 实现 Tterable 接 日 ) 。 以 下 代码 将 会 打印 所 有 命令 行 参 数 : 


public static void main(String[] args) 
{ ‘for (String 5:: args) StdOut.printin(s); J} 


-我们 能 够 用 foreach 循环 访问 字符 串 吗 ? 


不 行 ，String 没有 实现 Iterable 接口 。 
为 什么 不 实现 一 一 个 单独 的 C6118ction 数据 关 型 并 实现 添加 元 素 、 删除 最 近 插 人 的 元 素 、 删除 最 早 
插入 的 元 素 : 删除 随机 元 素 : 迭代、 返回 集合 元 素数 量 和 其 他 我 们 可 能 需要 的 方法 ? 和 


“在 一 个 类 中 实现 所 有 这 些 方法 并 可 以 应 用 于 各 种 用 例 。 


再 次 强调 一 遍 ， 这 又 是 一 个 宽 接 口 的 例子 。 Java 在 它 的 java.uti1.ArrayList 和 java.util1. vikedlist I lS 


类 的 实现 中 犯 过 这 样 的 错误 ;- 避 免 使 用 它们 的 一 个 原因 是 这 样 无 法 保证 高 效 实现 所 有 这 些 方法 。 
在 本 书 中 ,我 们 总 是 以 API 作为 设计 高 效 算法 和 数据 结构 的 起 点 ， 而 设计 只 含有 几 个 操作 的 接口 
显然 比 设计 含有 许多 操作 的 接口 更 简单 。 我 们 坚持 罕 接 口 的 另 一 个 原因 是 它们 能 够 限制 用 例 的 行 
为 ， 这 将 使 用 例 代码 更 加 易 慌 。 如 果 ` 一 段 用 例 代码 使 用 Stack<String>， 而 另 一 段 用例 代 码 使 用 
Queue<Transaction>， 我 们 就 可 以 知道 后 进 先 出 的 访问 顺序 对 于 前 者 很 重要 ,- 而 先进 先 出 的 访问 顺 
序 对 于 后 者 很 重要 。 


围 红 


一 ”1.3.1 为 FixedCapacityStackOfStrings 添加 一 个 方法 isFu110。 
1.3.2 给 定 以 下 输入 ，java Stack 的 输出 是 什么 ? 


it was - the best - of times ~- - ~- it was - the - - 


1.3.3 “假设 某 个 用 例 程 序 会 进行 一 系列 人 栈 和 出 栈 的 混合 栈 操 作 。 入 栈 操 作 会 将 整数 0 到 9 按 顺序 压 人 


栈 ;， 出 栈 操作 会 打印 出 返回 值 。 下 面 哪 种 序列 是 不 可 能 产生 的 ? 
a4321098765 
5 329.0 工 
S9310 
d4321056789 
&1234569870 
f0465381729 
L4738 .6 53D 2 
h21:43658790 
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编写 一 个 Stack 的 用 例 Parentheses， 从 标准 输入 中 读 取 一 个 文本 流 并 使 用 栈 判 定 其 中 的 括 


“号 是 否 配对 完整 。 例 如 ， 对 于 LONICED ORO 对 于 [Q) 则 打印 


1.3.5 


1.3.7 
1.3.8 


1.3.9 


1.3.10 
1.3.11 


1.3.12 


1.3.13 


1.3.14 


false。 


当 N 为 50 时 下 面 这 段 代 码 会 打印 什么 ? 从 较 高 的 抽象 层次 描述 给 定 正 整数 N 时 这 段 代 码 的 行为 。 
Stack<Integer> stack = new Stack<Integer>(); 
while (N > 0) 
{ 
stack.push(N % 2); 
N=N/2; 
} 
for (int d : stack) StdOut.print(d); 
StdOut.print1n(O); 


答 : 打印 N 的 二 进 制 表示 ( 当 N 为 50 时 打印 110010 ) 。 
下 面 这 段 代 码 对 队列 q 进行 了 什么 操作 ? 


Stack<String> stack = new Stack<String>O; 
while (1q.isEmpty()) 

stack.push(q. dequeue()); 
while (!stack.isEmpty()) 

q.enqueue(stack, popO)); 


为 Stack 添加 一 个 方法 peek() ， 返 回 栈 中 最 近 添加 的 元 素 ( 而 不 弹出 它 ) 。 
给 定 以 下 输入 ,给 出 Doub1ingStack0fStrings 的 数组 的 内 容 和 大 小 。 


it was - the best - of times - - - it was - the - - 


编写 一 段 程序 ， 从 标准 输入 得 到 一 个 缺少 左 括号 的 表达 式 并 打印 出 补 全 括号 之 后 的 中 序 表达 式 。 
例如 ， 给 定 输入 : 

汪汪 

你 的 程序 应 该 输出 : 

CC1+2)*(C3-4)*(5-6))) 

编写 一 个 过 滤器 InfixToPostfix， 将 算术 表达 式 由 中 序 表达 式 转 为 后 序 表 达 式 。 

编写 一 段 程序 EvaluatePostfix ， 从 标准 输入 中 得 到 一 个 后 序 表达 式 ， 求 值 并 打印 结果 ( 将 上 一 题 
的 程序 中 得 到 的 输出 用 管道 传递 给 这 一 段 程序 可 以 得 到 和 Evaluate 相同 的 行为 ) 。 
编写 一 个 可 迭代 的 Stack 用 例 ， 它 含有 一 个 静态 的 copyQ 方法 ， 接 受 一 个 字符 串 的 栈 作 为 参数 
并 返回 该 栈 的 一 个 副本 。 注 意 : 这 种 能 力 是 迭代 器 价值 的 一 个 重要 体现 ， 因 为 有 了 它 我 们 无 需 
改变 基本 API 就 能 够 实现 这 种 功能 。 

假设 某 个 用 例 程 序 会 进行 一 系列 入 列 和 上 出 列 的 混合 队列 操作 。 入 列 操作 会 将 整数 0 到 9 按 顺序 
插入 队列 ; 出 列 操作 会 打印 出 返回 值 。 下 面 哪 种 序列 是 不 可 能 产生 的 ? 
a0l23456789 

b4687532901 8 

c2567489310 区 : 
d4321056789 | 

编写 一 个 类 ReSizingArrayQueueOfStrings; 使 用 定 长 数组 实现 队列 的 抽象 ， 然 后 扩 展 实现 ， 
使 用 调整 数组 的 方法 突破 大 小 的 限制 。 “ S 
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1.3.15 编写 一 个 Queue 的 用 例 ， 接 受 一 个 命令 行 参 数 k 并 打印 出 标准 输入 中 的 倒数 第 k 个 字符 串 ( 假 
设 标准 输入 中 至 少 有 k 个 字符 串 ) 。 

1.3.16 使 用 1.3.1.5 节 中 的 readIntsC) 作为 模板 为 Date 编写 一 个 静态 方法 readDates() ， 从 标准 输入 
中 读 取 由 练习 1.2.19 的 表格 所 指定 的 格式 的 多 个 日 期 并 返回 一 个 它们 的 数组 。 

1.3.17 为 Transaction 类 完成 练习 1.3.16。 
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图 链表 练习 


这 部 分 练习 是 专门 针对 链表 的 。 建 议 ; 使 用 正文 中 所 述 的 可 视 化 表达 方式 画图 。 
1.3.18 ”假设 x 是 一 条 链表 的 某 个 结 点 且 不 是 尾 结 点 。 下 面 这 条 语句 的 效果 是 什么 ? 


Xx.next = x.next.next; 


答 : 删除 x 的 后 续 结 点 。 
1.3.19 给 出 一 段 代 码 ， 删 除 链表 的 尾 结 点 ， 其 中 链表 的 首 结 点 为 fi rst。 
1.3.20 编写 一 个 方法 delete() ， 接 受 一 个 int 参数 k， 删 除 链表 的 第 k 个 元 素 ( 如 果 它 存在 的 话 ) 。 
1.3.21 编写 一 个 方法 find() ， 接 受 一 条 链表 和 一 个 字符 串 key 作为 参数 。 如 果 链表 中 的 某 个 结 点 的 
item 域 的 值 为 key， 则 方法 返回 true， 否 则 返回 false。 
1.3.22 假设 x 是 一 条 链表 中 的 某 个 结 点 ， 下 面 这 段 代 码 做 了 什么 ? 


t.next ~ x.next; 
x.next = t; 


答 : 插入 结 点 上 并 使 它 成 为 x 的 后 续 结 点 。 
1.3.23 为 什么 下 面 这 段 代码 和 上 一 道 题 中 的 代码 效果 不 同 ? 


xnext = t; 
t.next = Xx.next; 


答 : 在 更 新 t.next 时 ，x.next 已 经 不 再 指向 x 的 后 续 结 点 ， 而 是 指向 t 本 身 ! 

1.3.24 ”编写 一 个 方法 removeAfter() ， 接 受 一 个 链表 结 点 作为 参数 并 删除 该 结 点 的 后 续 结 点 ( 如 果 参 

y 数 结 点 或 参数 结 点 的 后 续 结 点 为 空 则 什么 也 不 做 ) 。 是 有 

1.3.25 编写 一 个 方法 insertAfter() ， 接 受 两 个 链表 结 点 作为 参数 ， 将 第 二 个 结 点 插入 链表 并 使 之 成 
为 第 一 个 结 点 的 后 续 结 点 ( 如 果 两 个 参数 为 空 则 什么 也 不 做 ) 。 164| 

1.3.26 编写 一 个 方法 remove() ， 接 受 一 条 链表 和 一 个 字符 串 key 作为 参数 ， 删 除 链表 中 所 有 item 域 
为 key 的 结 点 。 

1.3.27 ”编写 一 个 方法 max() ， 接 受 一 条 链表 的 首 结 点 作为 参数 ， 返 回 链表 中 键 最 大 的 节点 的 值 。 假 设 所 
有 键 均 为 正 整 数 ， 如 果 链 表 为 空 则 返回 0。 

1.3.28 用 递归 的 方法 解答 上 一 道 练习 。 a = 

1.3.29 用 环形 链表 实现 Queue。 环 形 链表 也 是 一 条 链表 ， 只 是 没有 任何 结 点 的 链接 为 空 ， 且 只 要 链表 非 
空 则 last.next 的 值 为 first。 只 能 使 用 一 个 Node 类 型 的 实例 变量 (1ast ) 。 

1.3.30 编写 一 个 函数 ， 接 受 一 条 链表 的 首 结 点 作为 参数 ，( 破坏 性 地 ) 将 链表 反 转 并 返回 结果 链表 的 
首 结 点 。 
选 代 方式 的 解答 : 为 了 完成 这 个 任务 ， 我 们 需要 记录 链表 中 三 个 连续 的 结 点 : reverse、first 
和 second。 在 每 轮 选 代 中 ， 我 们 从 原 链表 中 提取 结 点 fi rst 并 将 它 插入 到 逆 链 表 的 开头 。 我 们 
需要 一 直 保 持 first 指向 原 链表 中 所 有 剩余 结 点 的 首 结 点 ，second 指向 原 链表 中 所 有 剩余 结 点 
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的 第 二 个 结 点 ，reverse 指向 结果 链表 中 的 首 结 点 。 . 3 
- public Node reverse(Node x) 
总 
Node first . = xi - 
Node reverse = null; 
while (first != null) 2 
{ F : 
Node second = first.rext; 
first.next = reverse; 
reverse .: = first; 
first = second; 
F S 
return reverse; | 2 pi 


} 
在 编写 和 链表 相关 的 代码 时 ， 我 们 必须 小 心 站 理 民明 情 况 (链表 为 或 是 只 有 一 和 

和 边界 情况 〔 处 理 首尾 结 点 ) 。 它 们 通常 比 处 理 正常 情况 要 困难 得 多 。 

递归 解答 : 假设 链表 含有 N 个 结 点 ， 我 们 先 递归 颠倒 最 后 N-1 个 结 点 ， 然后 小 心地 将 原 链表 中 

的 首 结 点 插入 到 结果 链表 的 末端 。 


public Node reverse(Node first) 
{ 
if (first == nul1) return null; 
if (first.next == nu1l). return first; 
Node second = first.next; 号 
Node rest = reverse(second); 
second.next = first; ' 
first.next. = null; Sy 
return rest; 


1.3.31 实现 一 个 说 套 类 DoubleNade 用 来 构造 双向 链表 ， 其 中 每 个 结 点 都 含有 一 个 指向 前 驱 元 素 的 引用 
和 -一 项 指向 后 续 元 素 的 引用 ( 如 果 不 存 在 则 为 nuT1 ) 。 为 以 下 任务 实现 若干 静态 方法 :在 表 头 
插入 结 点 、 在 表 尾 插入 结 点 、 从 表 头 删除 结 点 、 从 表 尾 删除 结 点 、 在 指定 结 点 之 前 插入 新 结 点 、” 
在 指定 结 点 之 后 插入 新 结 点 、 删 除 指定 结 点 。 


图 提高 是 


1.3.32 Steque。 一 个 以 栈 为 目标 的 队列 (或 称 steque ) ， 是 一 种 支持 push、pop 和 enqueue 操作 的 数 
4 据 类 型 。 为 这 种 抽象 数据 类 型 定义 一 份 API 并 给 出 一 份 基于 链表 的 实现 。” 


To Deque。 一 个 双向 队列 ( 或 者 称 为 deque ) 和 栈 或 队列 类 似 , 但 它 同时 支持 在 两 端 添加 或 删除 元 素 。 


Deque 能 够 存储 一 组 元 素 并 支持 表 1.3.9 中 的 API: 


表 1.3.9 泛 型 双向 队列 的 API 
public class Deque<Item> implements Iterable<Item> 
DequeO 创建 空 双向 队列 
boolean isEmptyO 双向 队列 是 否 为 空 





Dpush. pop 都 是 对 队列 同一 端的 操作 enqueue 和 push 对 应 ， 但 操作 的 是 队列 的 另 一 端 。 一 一 译 者 注 
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( 续 ) 
public class Deque<Item> implements Iterable<Item> 
int sizeO 双向 队列 中 的 元 素数 量 
void pushLeft(Item item) 向 左 端 添加 一 个 新 元 素 
void pushRight(Item item) 向 右 端 添加 一 个 新 元 素 
Item ”popLeftO 从 左 端 删除 一 个 元 素 
Item popRightO 从 右 端 删除 一 个 元 素 


编写 一 个 使 用 双向 链表 实现 这 份 API 的 Deque 类 ， 以 及 一 个 使 用 动态 数组 调整 实现 这 份 API 的 
ResizingArrayDeque 类 。 
1.3.34 ”随机 背包 。 随 机 背包 能 够 存储 一 组 元 素 并 支持 表 1.3.10 中 的 API: 
表 1.3.10” 泛 型 随机 背包 的 API 


public class RandomBag<Item> implements Iterable<Item> 





RandomBag() 创建 一 个 空 随机 背包 
boolean isEmpty() 背包 是 否 为 空 
int sizeO 背包 中 的 元 素数 量 
void add(Item item) 添加 一 个 元 素 


编写 一 个 RandomBag 类 来 实现 这 份 API。 请 注意 ， 除 了 形容 词 随机 之 外 ， 这 份 API 和 Bag 的 API 

是 相同 的 ， 这 意味 着 和 迭代 应 该 随机 访问 背包 中 的 所 有 元 素 ( 对 于 每 次 和 迭代， 所 有 的 NI 种 排列 出 。” [167 

现 的 可 能 性 均 相同 ) 。 提 示 : 用 数组 保存 所 有 元 素 并 在 迁 代 器 的 构造 函数 中 随机 打 乱 它们 的 顺序 。 
1.3.35 ”随机 队列 。 随 机 队列 能 够 存储 一 组 元 素 并 支持 表 1.3.11 中 的 API: 














表 1.3.11 泛 型 随机 队列 的 API 
public class RandomQueue<Item> 





RandomQueue() 创建 一 条 空 的 随机 队列 
boolean isEmpty(O) 队列 是 否 为 空 
void enqueue(Item item) 添加 一 个 元 素 
Item dequeue(O) 删除 并 随机 返回 一 个 元 素 ( 取样 且 不 放 回 ) 
Item sampleO) 随机 返回 一 个 元 素 但 不 删除 它 〔 取样 且 放 回 ) 


编写 一 个 RandomQueue 类 来 实现 这 份 API。 提 示 : 使 用 ( 能 够 动态 调整 大 小 的 ) 数组 表示 
数据 。 删 除 一 个 元 素 时 ， 随 机 交换 某 个 元 素 ( 索引 在 0 和 N-1 之 间 ) 和 末 位 元 素 ( 索引 为 
N-1) 的 位 置 ， 然 后 像 ResizingArrayStack 一 样 删除 并 返回 未 位 元 素 。 编 写 一 个 用 例 、 使 用 
RandomQueue<Card> 在 桥牌 中 发 牌 (每 人 13 张 ) 。 

1.3.36 ”随机 迭代 器 。 为 上 一 题 中 的 RandomQueue<Item> 编写 一 个 迭代 器 ， 随 机 返回 队列 中 的 所 有 元 素 。 

1.3.37 Josephus 问题 。 在 这 个 古老 的 问题 中 ，N 个 身 陷 绝境 的 人 一 致 同意 通过 以 下 方式 减少 生存 人 
数 。 他 们 围 坐 成 一 圈 ( 位 置 记 为 0 到 N-1 ) 并 从 第 一 个 人 开始 报 数 ， 报 到 1 的 人 会 被 杀 死 , 
直到 最 后 一 个 人 留 下 来 。 传 说 中 Josephus 找到 了 不 会 被 杀 死 的 位 置 。 编 写 一 个 Queue 的 用 例 


Josephus, 从 命令 行 接受 N 和 MM 并 打印 出 人 们 被 杀 死 的 顺序 ( 这 也 将 显示 Josephus 在 圈 中 的 位 置 )。 


% java Josephus 7 2 
1350426 168 
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1.3.38 


1.3.39 


1.3.40 


1.3.41 


1.3.42 


1.3.43 


1.3.44 


删除 第 k 个 元 素 。 实 现 一 个 类 并 支持 表 1.3.12 中 的 API: 


表 1.3.12 泛 型 一 般 队 列 的 API 
public class GeneralizedQueue<Item> 











CeneralizedQueue() 创建 一 条 空 队列 
boolean isEmptyO) 队列 是 否 为 空 
void insert(Item x) 添加 一 个 元 素 
Item delete(Cint k) 删除 并 返回 最 早 择 入 的 第 k 个 元 素 


首先 用 数组 实现 该 数据 类 型 ， 然 后 用 链表 实现 该 数据 类 型 。 注 意 : 我 们 在 第 3 章 中 介绍 的 算法 
和 数据 结构 可 以 保证 insert() 和 delete() 的 实现 所 需 的 运行 时 间 和 和 队列 中 的 元 素数 量 成 对 
数 关系 一 一 请 见 练习 3.5.27。 

环形 缓冲 区 。 环 形 缓冲 区 ， 又 称 为 环形 队列 ， 是 一 种 定 长 为 N 的 先进 先 出 的 数据 结构 。 它 在 进 
程 问 的 异步 数据 传输 或 记录 日 志文 件 时 十 分 有 用 。 当 缓冲 区 为 空 时 ， 消 费 者 会 在 数据 存 和 人 缓冲 
区 前 等 待 , 当 缓冲 区 满 时 ,生产 者 会 等 待 将 数据 存 人 缓冲 区 。 为 RingBuffer 设 计 一 份 API 并 用 ( 回 
环 ) 数组 将 其 实现 。 

前 移 编 码 。 从 标准 输入 读 取 一 串 字符 ， 使 用 链表 保存 这 些 字符 并 清除 重复 字符 。 当 你 读 取 了 一 
个 从 未 见 过 的 字符 时 ， 将 它 插入 表 头 。 当 你 读 取 了 一 个 重复 的 字符 时 ， 将 它 从 链表 中 删 去 并 再 
次 插入 表 头 。 将 你 的 程序 命名 为 MoveToFront: 它 实现 了 著名 的 前 移 编码 策略 ， 这 种 策略 假设 最 
近 访问 过 的 元 素 很 可 能 会 再 次 访问 ， 因 此 可 以 用 于 缓存 、 数 据 压 缩 等 许多 场景 。 

复制 队列 。 编 写 一 个 新 的 构造 函数 ， 使 以 下 代码 

Queue<Item> r = new Queue<Item> (q); 

得 到 的 "指向 队列 q 的 一 个 新 的 独立 的 副本 。 可 以 对 q 或 r 进行 任意 人 列 或 出 列 操作 但 它们 不 
会 相互 影响 。 提 示 : 从 q 中 取出 所 有 元 素 青 将 它们 插入 q 和 r。 

复制 栈 。 为 基于 链表 实现 的 栈 编写 一 个 新 的 构造 函数 ， 使 以 下 代码 

Stack<Item> t = new Stack<Item>(s); 

得 到 的 t 指向 栈 s 的 一 个 新 的 独立 的 副本 。 

文件 列表 。 文 件 夹 就 是 一 列 文件 和 文件 夹 的 列表 。 编 写 一 个 程序 ， 从 命令 行 接受 一 个 文件 夹 名 
作为 参数 ， 打 印 出 该 文件 夹 下 的 所 有 文件 并 用 递归 的 方式 在 所 有 子 文件 夹 的 名 下 ( 缩 进 ) 列 出 
其 下 的 所 有 文件 。 提 示 : 使 用 队列 ， 并 参考 javaio File。 

文本 编辑 器 的 缓冲 区 。 为 文本 编辑 器 的 缓冲 区 设计 一 种 数据 类 型 并 实现 表 1.3.13 中 的 API。 





表 1.3.13 文本 缓冲 区 的 API 
Public class Buffer 





Buffer() 创建 一 块 空 缓冲 区 
void insert(char c) 在 光标 位 置 插入 字符 c 
char deleteQO 删除 并 返回 光标 位 置 的 字符 
void left(int k) 将 光标 向 左 移 动 k 个 位 置 
void rightCint k) 将 光标 向 右 移动 k 个 位 置 
int size() 缓冲 区 中 的 字符 数量 





提示 : 使 用 两 个 栈 。 
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1.3.45“ 找 的 可 生成 性 。 假 设 我 们 的 栈 测试 用 例 将 会 进行 一 系列 混合 的 入 栈 和 出 栈 操作 ， 序 列 中 的 整数 
0,1,…,N-I ( 按 此 先后 顺序 排列 ) 表示 入 栈 操作 ，N 个 减 号 表示 出 栈 操作 。 设计 一 个 算法 ， 判 
定 给 定 的 混合 序列 是 否 会 使 数组 向 下 溢出 ( 你 所 使 用 的 空间 量 与 N 无 关 ， 即 不 能 用 某 种 数据 结 
构 存储 所 有 整数 ) 。 设 计 一 个 线性 时 间 的 算法 判定 我 们 的 测试 用 例 能 否 产生 某 个 给 定 的 排列 (这 
取决 于 出 栈 操作 指令 的 出 现 位 置 ) 。 1%| 
解答 : 除非 对 于 某 个 整数 k， 前 次 出 栈 操作 会 在 前 次 入 栈 操作 前 完成 ， 否 则 栈 不 会 向 下 溢出 。 
如 果 某 个 排列 可 以 产生 , 那么 它 产 生 的 方式 一 定 是 唯一 的 : 如 果 输出 排列 中 的 下 一 个 整数 在 栈 项 ， 
则 将 它 弹出 ， 否 则 将 它 压 人 栈 之 中 。 

1.3.46 栈 可 生成 性 问题 中 禁止 出 现 的 排列 。 若 三 元 组 (ab,c) 中 a<b<c 且 c 最 先 被 弹出 , a 第 二 , b 第 三 (e 
和 a 以 及 a 和 b 之 间 可 以 间隔 其 他 整数 ) ， 那 么 当 且 仅 当 排列 中 不 含 这 样 的 三 元 组 时 ( 如 上 题 所 
述 的 ) 栈 才 可 能 生成 它 。 
部 分 解答 : 设 有 一 个 这 样 的 三 元 组 (ab,c)。e 会 在 a 和 b 之 前 被 弹出 , 但 a 和 b 会 在 c 之 前 被 压 入 。 
因此 ， 当 e 被 压 人 时 ，a 和 bb 都 已 经 在 栈 之 中 了 。 所 以 ，a 不 可 能 在 b 之 前 被 弹出 。 

1.3.47 ”可 连接 的 队列 、 栈 或 steque。 为 队列 、 栈 或 steque ( 请 见 练习 1.3.32 ) 添加 一 个 能 够 ( 破坏 性 地 ) 
连接 两 个 同类 对 象 的 额外 操作 catenation。 

1.3.48 ”双向 队列 与 栈 。 用 一 个 双向 队列 实现 两 个 栈 ， 保 证 每 个 栈 操作 只 需要 常数 次 的 双向 队列 操作 ( 请 
见 练习 1.3.33) 。 

1.3.49 “ 栈 与 队列 。 用 三 个 栈 实现 一 个 队列 ,保证 每 个 队列 操作 ( 在 最 坏 情况 下 ) 都 只 需要 常数 次 的 栈 操作 。 
警告 : 非常 难 ! 

1.3.50 快速 出 错 的 逃 代 器 。 修 改 Stack 的 迭代 器 代码 ， 确 保 一 旦 用 例 在 迭代 器 中 ( 通过 pushO 
或 popO 操作 ) 修改 集合 数据 就 抛 出 一 个 java.uti1.ConcurrentModificationException 异常 。 
解答 : 用 一 个 计数 器 记录 push() 和 popO 操作 的 次 数 。 在 创建 迭代 器 时 ， 将 该 值 记 录 到 
Iterator 的 一 个 实例 变量 中 ,在 每 次 调用 hasNext() 和 next() 之 前 , 检查 该 值 是 否 发 生 了 变化 ， 
如 果 变 化 则 抛 出 异常 。 171 
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1.4 算法 分 析 


随 着 使 用 计算 机 的 经 验 的 增长 ， 人 们 在 使 用 计算 机 解决 困难 问题 或 是 处 理 大 量 数据 时 不 可 避免 

的 将 会 产生 这 样 的 疑问 : 
我 的 程序 会 运行 多 长 时 间 ? 
为 什么 我 的 程序 耗 尽 了 所 有 内 存 ? 

在 重建 某 个 音乐 或 照片 库 、 安 装 某 个 新 应 用 程序 、 编 辑 某 个 大 型 文档 或 是 处 理 一 大 批 实验 数据 
时 ,你 表 定 也 问 过 自己 这 些 问题 。 这 些 问 题 太 模糊 了 ， 我 们 无 法 准确 回答 一 答案 取决 于 许多 因素 ， 
比如 你 所 使 用 的 计算 机 的 性 能 、 被 处 理 的 数据 的 性 质 和 完成 任务 所 使 用 的 程序 ( 实现 了 某 种 算法 ) 。 
这 些 因素 都 会 产生 大 量 需要 分 析 的 信息 。 

尽管 有 这 些 困 难 , 你 在 本 节 中 将 会 看 到 ,为 这 些 基础 问题 给 出 实质 性 的 答案 有 时 其 实 非常 简单 。 
这 个 过 程 的 基础 是 科学 方法 ， 它 是 科学 家 们 为 获取 自然 界 知识 所 使 用 的 一 系列 为 大 家 所 认同 的 方法 。 
我 们 将 会 使 用 数学 分 析 为 算法 成 本 建立 简洁 的 模型 并 使 用 实验 数据 验证 这 些 模型 。 


1.4.1 科学 方法 

科学 家 用 来 理解 自然 世界 的 方法 对 于 研究 计算 机 程序 的 运行 时 间 同 样 有 效 

口 细致 地 观察 真实 世界 的 特点 ， 通 常 还 要 有 精确 的 测量 ; 

口 根据 观察 结果 提出 假设 模型 

口 根据 模型 预测 未 来 的 事件 ; 

口 继续 观察 并 核实 预测 的 准确 性 ; 

口 如 此 反复 直到 确认 预测 和 观察 一 致 

科学 方法 的 一 条 关键 原则 是 我 们 所 设计 的 实验 必须 是 可 重 现 的 ， 这 样 他 人 也 可 以 自己 验证 假设 
的 真实 性 。 所 有 的 假设 也 必须 是 可 证 伪 的 ， 这 样 我 们 才能 确认 某 个 假设 是 错误 的 ( 并 需要 修正 ) 。 
正如 爱 因 斯 坦 的 一 句 名 言 所 说 “再 多 的 实验 也 不 一 定 能 够 证 明 我 是 对 的 ， 但 只 需要 一 个 实验 就 能 
证 明 我 是 错 的 。” 我 们 永远 也 没 法 知道 某 个 假设 是 否 绝对 正确 ， 我 们 只 能 验证 它 和 我 们 的 观察 的 一 
致 性 。 5 ' 
1.4.2 ”观察 

我 们 的 第 一 个 挑战 是 决定 如 何 定量 测量 程序 的 运行 时 间 。 在 这 里 这 个 任务 比 自然 科学 中 的 要 简 
单 得 多 。 我 们 不 需要 向 火星 发 射 火箭 或 者 牺牲 一 些 实验 室 的 小 动物 或 是 分 烈 某 个 原子 一 一 只 需要 运 
行程 序 即 可 。 事 实 上 ， 每 次 运行 程序 都 是 在 进行 一 次 科学 实验 ， 将 这 个 程序 和 自然 世界 联系 起 来 并 
回答 我 们 的 一 个 核心 问题 : 我 的 程序 会 运行 多 长 时 间 ? 

我 们 对 大 多 数 程序 的 第 一 个 定量 观察 就 是 计算 性 任务 的 困难 程度 可 以 用 问题 的 规模 来 衡量 。 一 
般 来 说 ， 问 题 的 规模 可 以 是 输入 的 大 小 或 是 某 个 命令 行 参数 的 值 。 根 据 直 党 ， 程 序 的 运行 时 间 应 该 
随 着 问题 规模 的 增长 而 变 长 ， 但 我 们 每 次 在 开发 和 运行 一 个 程序 时 想 问 的 问题 都 是 运行 时 间 的 增长 
有 多 快 。 l 

从 许多 程序 中 得 到 的 另 一 个 定量 观察 是 运行 时 间 和 输入 本 身 相对 无 关 , 它 主要 取决 于 问题 规模 。 
如 果 这 个 关系 不 成 立 ; 我 们 就 需要 进行 一 些 实验 来 更 好 地 理解 并 更 好 地 控制 运行 时 间 对 输入 的 敏感 
度 。 但 这 个 关系 常常 是 成 立 的 ， 因 此 我 们 现在 来 重点 研究 如 何 更 好 地 将 问题 规模 和 运行 时 间 的 关系 
i 


1.4.2.1 举例 

右 侧 的 ThreeSum 程序 是 一 个 可 运行 
的 示例 。 它 会 统计 一 个 文件 中 所 有 和 为 0 
的 三 整数 元 组 的 数量 ( 假设 整数 不 会 溢出 )。 
这 种 计算 可 能 看 起 来 有 些 不 自然 ， 但 其 实 
它 和 许多 基础 计算 性 任务 都 有 着 深刻 的 联 
系 (例如 ， 请 见 练习 1.4.26 ) 。 作 为 测试 
输入 ， 我 们 使 用 的 是 本 书 网 站 上 的 1Mints. 
txt 文件 ， 它 含有 100 万 个 随机 生成 的 int 
值 。1Mints.txt 中 的 第 二 个 、 第 八 个 和 第 
十 个 元 组 的 和 均 为 0。 文件 中 还 有 多 少 组 
这 样 的 数据 ? ThreeSum 能 够 告诉 我 们 答 
- 案 ， 但 它 所 需 的 时 间 可 以 接受 吗 ? 问题 的 
规模 N 和 ThreceSum 的 运行 时 间 有 什么 关 
系 ? 我 们 的 第 一 个 实验 就 是 在 计算 机 上 运 
行 ThreeSum 并 处 理 本 书 网 站 上 的 1Kints. 
txt、2Kints.txt、4Kints.txt 和 8Kints.txt 文 
件 ， 它 们 分 别 含有 1Mints:txt 中 的 1000、 
2000、4000 和 8000 个 整数 。 你 可 以 很 快 
得 到 这 样 的 整数 元 组 在 1Kints.txt 中 共有 
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public class ThreeSum 
{ 


public static int countCint[] a) 
{ // 统计 和 为 0 的 元 组 的 数量 

int N = a.length; 

int cnt = 0; 

for (int 1 = 0; i < N; i++) 

for Cint j = i+l; j < Ni j++) 
for Cint k = j+l; k < Ni k++) 
if Ca[i] + a[j] + a[k] == 0) 
Cnt++; 
return cnt; 


public static void main(String[] args) 
4 


int[] a = In.readInts(args[0]); 
Stdout .printlnCcount(a)); 


对 于 给 定 的 N， 这 段 程序 需要 运行 多 长 时 间 


% java ThreeSum 1Kints.txt 


Gd) 滴答 议 答 滴答 


70 
% java ThreeSum 2Kints.txt 





70 组 ,在 2Kints.txt 中 共有 528 组 ,如 图 1.4.1 


消 答 泣 答 滴答 消 答 滴答 滴答 滴答 滴答 
所 示 。 这 个 程序 需要 用 比 之 前 长 得 多 的 时 将 


间 得 到 在 4Kints.txt 中 共有 4039 


组 和 为 0 的 整数 。 在 等 待 它 处 


% more 1Mints.txt % java ThreeSum 4Kints.txt 


en 人 站 
你 在 问 自己 : “我 的 程序 还 要 “626686 滴答 济 答 滴答 消 答 注入 答 消 答 滴答 
运行 多 久 ?.” 你 会 看 到 ,对 于 -157678 和 和 和 
这 个 程序 ， 回答 这 个 问题 很 简 123414 滴 答 滴答 滴答 滴答 应 答 滴答 泣 答 滴答 
单 。 实 际 上 ， 你 常 党 能 在 程序 。。。 ;72867 tt 
i 滴答 滴答 泣 答 滴答 滴答 
运行 的 时 候 就 给 出 一 个 较为 准 129801 演 答 泣 答 注 答 滴答 济 答 滴答 滴答 消 答 
确 的 预测 。 训 光 和 和 
604242 
1422 Ha SR 
准确 测量 给 定 程序 的 确切 Os 浓 答 滴答 次 答 注 答 滴答 滴答 痪 答 滴答 
CO 二 
运 的 是 我 们 一 般 只 需要 近似 值 “210707 
就 可 以 了 。 我 们 希望 能 够 把 需 。 -322923 人 
滴答 滴答 滴答 滴答 
要 几 秒 钟 或 者 几 分 钟 就 能 完成 E00 nin ee 
的 程序 和 需要 几 天 、 几 个 月 甚 en 
芝 二 ee av A 4039 注 答 滴答 滴答 滴答 滴答 滴答 济 答 滴答 


别 开 来 ,而 且 我 们 希望 知道 对 图 1.4.1 记录 一 个 程序 的 运行 时 间 


110 本 第 1 章 基 而 








174| 














175 








于 同一 个 任务 某 个 程序 是 不 是 比 另 一 个 程序 快 一 倍 。 因 此 ， 我 们 仍然 需要 准确 的 测量 手段 来 生成 实 
验 数据 , 并 根据 它们 得 出 并 验证 关于 程序 的 运行 时 间 和 问题 规模 的 假设 。 为 此 , 我 们 使 用 了 如 表 1.4.1 
所 示 的 Stopwatch 数据 类 型 。 它 的 elapsedTime () 方法 能 够 返回 自 它 创建 以 来 所 经 过 的 时 间 ， 以 
秒 为 单位 。 它 的 实现 基于 Java 系统 的 currentTimeMi11is() 方法 ， 该 方法 能 够 返回 以 毫秒 记 数 的 
当前 时 间 。 它 在 构造 函数 中 保存 了 当前 时 间 ， 并 在 elapsedTime() 方法 被 调用 时 再 次 调用 该 方法 
来 计算 得 到 对 象 创建 以 来 经 过 的 时 间 。 


表 1.4.1 一 种 表示 计时 器 的 抽象 数据 类 型 
API public class Stopwatch 








Stopwatch() 创建 一 个 计时 器 
double elapseTime() 返回 对 象 创建 以 来 所 经 过 的 时 间 
典型 用 例 public static void main(String[] args) 
和 


int N = Integer.parseInt(args[0]); 
int[] a = new int[N]; 
for (int 1 = 0; i < N; i++) 
a[i] = SrdRandom.uniform(-1000000，1000000); 
Stopwatch timer = new StopwatchO; 
int cnt = ThreeSum.count(a); 
double time ~- timer.elapsedTineC; 
StdOut.printIn(cnt + "triples” + time + "seconds”"); 


使 用 方法 % java Stopwatch 1000 
51 triples 0.488 seconds 
% java Stopwatch 2000 
516 triples 3.855 seconds 


数据 类 型 的 实现 public class Stopwatch 
{ 


private final long start; 
public StopwatchO) 

{ start = System.currentTimeMillis(); } 
public double elapsedTime() 


1ong now = System.currentTimeMi11is(); 
return (now - start) / 1000.0; 
是 
} 





1.4.2.3 ”实验 数据 的 分 析 

DoublingTest 是 Stopwatch 的 一 个 更 加 复杂 的 用 例 ， 并 能 够 为 ThreeSum 产生 实验 数据 。 它 会 4 
成 一 系列 随机 输入 数组 ， 在 每 一 步 中 将 数组 长 度 加 倍 ， 并 打印 出 ThreeSum.count() 处 理 每 种 输入 规 
模 所 需 的 运行 时 间 。 这 些 实验 显然 是 可 重 现 的 一 一 你 也 可 以 在 自己 的 计算 机 上 运行 它们 , 多 少 次 都 行 。 
在 运行 DoublingTest 时 ， 你 会 发 现 自己 进入 了 一 个 “预测 一 验证 ”的 循环 : 它 会 快速 打印 出 几 行 数据 ， 
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但 随即 慢 了 下 来 。 每 当 它 打 印 出 一 行 结果 时 ， 你 都 会 开始 琢磨 它 还 需要 多 久 才 能 打出 下 一 行 。 当 然 ， 
因为 大 家 使 用 的 计算 机 不 同 ， 你 得 到 的 实际 运行 时 间 很 可 能 和 我 们 的 计算 机 得 到 的 不 一 样 。 事 实 上 ， 
如 果 你 的 计算 机 比 我 们 的 快 一 倍 ， 你 所 得 到 的 运行 时 间 应 该 大 致 是 我 们 所 得 到 的 一 半 。 由 此 我 们 马上 
可 以 得 出 一 条 有 说 服 力 的 猜想 : 程序 在 不 同 的 计算 机 上 的 运行 时 间 之 比 通常 是 一 个 常数 。 尽 管 如 此 ， 
你 还 是 会 提出 更 详细 的 问题 : 作为 问题 规模 的 一 个 函数 ， 我 的 程序 的 运行 时 间 是 多 久 ? 为 了 帮助 你 回 
答 这 个 问题 ， 我 们 来 将 数据 绘制 成 图 表 。 图 1.4.2 就 是 产生 结果 ， 使 用 的 分 别 是 标准 比例 尺 和 对 数 比 
例 尺 。 其 中 x 轴 表示 N，y 轴 表示 程序 的 运行 时 间 TUN)。 由 对 数 的 图 像 我 们 立即 可 以 得 到 一 个 关于 运 
行 时 间 的 猜想 一 一 因为 数据 和 斜率 为 3 的 直线 完全 吻合 。 该 直线 的 公式 为 (其 中 a 为 常数 ) : 


Je(TUW) = lgN +lga 





它 等 价 于 ; .. 
TM=aN 
这 就 是 我 们 想 要 的 运行 时 间 关 于 输入 规模 N 的 函数 。 我 们 可 以 用 其 中 一 个 数据 点 来 解 出 a 的 


值 一 -例如 ，7(8000)= a8000" ， 可 得 a = 9.98 x 10” 一 一 因此 我 们 就 可 以 用 以 下 公式 预测 N 值 较 大 


时 程序 的 运行 时 间 : 
TIN=9.98xI0"N 


我 们 可 以 根据 对 数 图 像 中 的 数据 点 距离 这 条 直线 的 远近 来 不 严格 地 检验 这 条 假设 。 一 些 统计 学 . 


方法 可 以 帮助 我 们 更 加 仔细 地 分 析出 a 和 指数 b 的 近似 值 ， 但 我 们 的 快速 计算 已 经 足以 在 大 多 数 情 
况 下 估计 出 程序 的 运行 时 间 。 例如 ， 我 们 预计 ， 在 我 们 的 计算 机 上 ， 当 N=16000 时 程序 的 运行 时 间 
约 为 9.98 x 10"x 16000=408.8 秒 ， 也 就 是 约 6.8 分 钟 ( 实际 时 间 为 409.3 秒 ) 。 在 等 待 计算 机 得 出 
DoublingTest 在 N=T6000 的 实验 数据 时 ， 也 可 以 用 这 个 方法 来 预测 它 何 时 将 会 结束 ， 然 后 等 待 并 验 


证 你 的 结果 是 否 正 确 。: 
“实验 程序 Sd a 实验 结果 
public class DoublingTest % java DoublingTest 
KE 250 0.0 
public static double timeTrialCint N) 500 0.0 
人 // 为 处 理 N 个 随机 的 六 位 整数 的 ThreeSum. count() 计时 1000 0.1 
int MAX = 1000000; 2000 0.8 
int[] a = new int[N]; 4000 6.4 
S51.1 


for (Cint i = 0; i < N; i++) 8000 
a[i] = StdRandom.uniform(-MAX, MAX); . 
Stopwatch timer = new Stopwatch(); 
int cnt = ThreeSum.count(a); 
return timer.elapsedTime(); 
} 
public static void main(String[] args) 
所 “AN 打印 运行 时 间 的 表格 
for (int N = 250; true; N += N) 
{ /J/ 打印 问题 规模 为 N 时 程序 的 用 时 
double time = timeTrial(N); 
StdOut.printf("%7d %5.1f\n", N, time); 
} 
} 
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25.6 3 的 直线 、、、 


会 
吕 30 芭 3.2 
四 6 
由 20 8 
4 
10 放 
1 
Tt rr 一 一 1 
BK ak 2k 4K gk 
问题 规模 NN leN 
177 图 1.4.2 _ 实 验 数据 (ThreeSum.count() 的 运行 时 间 ) 的 分 析 





到 现在 为 止 ， 这 个 过 程 和 科学 家 们 在 尝试 理解 真实 世界 的 奥秘 时 进行 的 过 程 完全 相同 。 对 数 图 
像 中 的 直线 等 价 于 我 们 对 数据 符合 公式 TUN)=aN* 的 猜想 。 这 种 公式 被 称 为 紧 次 法 则 。 许 多 自然 和 
人 工 的 现象 都 符合 寡 次 法 则 ， 因 此 假设 程序 的 运行 时 间 符 合 寡 次 法 则 也 是 合情合理 的 。 事 实 上 ， 对 
于 算法 的 分 析 , 我 们 有 许多 数学 模型 强烈 支持 这 种 函数 和 其 他 类 似 的 假设 , 我 们 现在 就 来 学 习 它们 。 


1.4.3 ”数学 模型 

在 计算 机 科学 的 早期 ，D. E. Knuth 认为 ， 尽 管 有 许多 复杂 的 因素 影响 着 我 们 对 程序 的 运行 时 间 
的 理解 ， 原 则 上 我 们 仍然 可 能 构造 出 一 个 数学 模型 来 描述 任意 程序 的 运行 时 间 。Knuth 的 基本 见地 
很 简单 -一 一 一 个 程序 运行 的 总 时 间 主要 和 两 点 有 关 : 

口 执行 每 条 请 句 的 耗 时 ; 

口 执行 每 条 语句 的 频率 。 

前 者 取决 于 计算 机 、Java 编译 器 和 操作 系统 ， 后 者 取决 于 程序 本 身 和 输入 。 如 果 对 于 程序 的 所 
有 部 分 我 们 都 知道 了 这 些 性 质 ， 可 以 将 它们 相 乘 并 将 程序 中 所 有 指令 的 成 本 相 加 得 到 总 运行 时 间 。 

第 一 个 挑战 是 判定 语句 的 执行 频率 。 有 些 语句 的 分 析 很 容易 : 例如 ，ThreeSum.count() 中 将 
cnt 的 值 设 为 0 的 语句 只 会 执行 一 次 。 有 些 则 需要 深入 分 析 : 例如 ，ThreeSum.count() 中 的 if 
语句 会 执行 WN-I)CV-2)/6 次 ( 从 输入 数组 中 能 够 取得 的 三 个 不 同 整数 的 数量 一 一 请 见 练习 1.4.1 ) 。 
其 他 则 取决 于 输入 数据 ， 例 如 ，ThreeSum.count( 中 的 指令 cnt++ 执行 的 次 数 为 输入 中 和 为 0 的 
整数 三 元 组 的 数量 ， 这 可 能 是 0 也 可 能 是 任意 值 。 对 于 DoublingTest 的 情况 ， 输 入 值 是 随机 产生 的 ， 
我 们 可 以 用 概率 分 析 得 到 该 值 的 期 望 (请 见 练习 1.4.40) 。 





1.4.3.1 近似 
这 种 频率 分 析 可 能 会 产生 复杂 宛 长 的 数学 表达 式 。 例 如 ， 刚 才 我 们 所 讨论 的 ThreeSum 中 的 if 
语句 的 执行 次 数 为 : 
| NN-1)(N-2)6=N’/6-N/2+N/3 











一 般 在 这 种 表达 式 中 ， 首 项 之 后 的 其 他 项 都 相对 较 小 (例如 ， 当 N=1000 时 ,NY2+N3 = 499 667， 
相对 于 NV/6 = 166 666 667 就 小 得 多 了 ) ， 如 图 1.4.3 所 示 。 我 们 常常 使 用 约 等 于 号 (~ ) 来 忽略 
较 小 的 项 ， 从 而 大 大 简化 我 们 所 处 理 的 数学 公式 。 该 符号 使 我 们 能 够 用 近似 的 方式 忽略 公式 中 那 


些 非常 复杂 但 寡 次 较 低 ， 且 对 最 终结 果 的 贡献 无 关 紧 要 的 项 : 


定义 。 我 们 用 ~AN) 表示 所 有 随 着 入 的 增 大 除 以 AN) 的 结果 趋 近 于 1 的 秀 数 。 i 


AN) 表示 g(NYAN) 随 着 N 的 增 大 趋 近 于 1。 


例如 ， 我 们 用 ~N/6 表示 ThreeSum 中 的 
诈 语 名 的 执行 次 数 ， 因 为 Y/6-M/2+N3 除 
以 N16 的 结果 随 着 N 的 增 大 趋向 于 1。 一 般 
我 们 用 到 的 近似 方式 都 是 SCN) ~ aKN)， 其 中 
AN=N(logN)， 其 中 a、b 和 e 均 为 常数 。 我 
们 将 XN) 称 为 g(N) 的 增长 的 数量 级 ( 如 表 1.4.2 
所 示 ) 。 我 们 一 般 不 会 指定 底数 ， 因 为 常数 a 
能 够 弥补 这 些 细节 。 这 种 形式 的 函数 覆盖 了 我 
们 在 对 程序 运行 时 间 的 研究 中 经 常 遇 到 的 几 
种 函数 , 如 表 1.4.3 所 示 ( 指数 级 别 是 一 个 例外 ， 
我 们 会 在 第 6 章 中 讲 到 ) 。 我 们 会 详细 说 明 这 
几 种 函数 并 在 处 理 完 ThreeSum 之 后 简要 讨论 
为 什么 它们 会 出 现在 算法 分 析 领 域 之 中 。 
1.4.3.2 ”近似 运行 时 间 

按照 Knuth 的 方法 ， 要 得 到 一 个 Java 程 
序 的 总 运行 时 间 的 数学 表达 式 ，( 原则 上 ) 
我 们 需要 研究 我 们 的 Java 编译 器 来 找 出 每 条 
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NIN-D(N-2)16 


图 1.4.3 首 项 近似 


表 1.4.2 典型 的 近似 


近 似 


增长 的 数量 级 





NG6-NSI2+N/3 
Na2-N2 
lgN+l 

3 


~N6 
-Na 
-IN 
-3 


~ 
Na 


表 1.4.3 ”常见 的 增长 数量 级 函数 








Java 指令 所 对 应 的 机 器 指令 数 ， 并 根据 我 们 增长 的 数量 级 

的 计算 机 的 指令 规范 得 到 每 条 机 器 指令 的 运 六 玉 画 数 
行 时 间 ， 然 后 才能 得 到 一 个 总 运行 时 间 。 对 于 党 数 级 别 1 

ThreeSum， 这 个 时 间 的 大 致 总 结 如 图 1.4.4 所 pe ba 

示 。 我们 根据 执行 的 频率 将 Java 的 语句 分 块 ， ee 

计算 出 每 种 频率 的 首 项 近似 ， 判 定 每 条 指令 的 ead 

执行 成 本 并 计算 出 总 和 。 请 注意 ， 某 些 执行 频 i a 

六 可能 会 依 事 于 输入 。 在 本 例 中 ，cnt++ 的 执 指数 级 别 2 

行 次 数 显然 就 是 依赖 于 输入 的 一 它 就 是 和 

为 0 的 整数 三 元 组 的 数量 范围 在 0 到 ~ N36 之 间 。 通 过 用 常数 如、t,、… 表 示 各 个 代码 块 的 执行 


时 间 ， 我 们 假设 每 个 Java 代码 块 所 对 应 的 机 器 指令 集 所 需 的 执行 时 间 都 是 固定 的 。 除 此 之 外 ,我 们 
基本 不 会 涉及 任何 特定 系统 的 细节 ( 这 些 常数 的 值 ) 。 从 这 里 我 们 观察 到 的 一 个 关键 现象 是 执行 最 
频繁 的 指令 决定 了 程序 执行 的 总 时 间 一 一 我 们 将 这 些 指令 称 为 程序 的 内 循环 。 对 于 ThreeSum 来 说 ， 

它 的 内 循环 是 将 k 加 1、 判 断 它 是 否 小 于 N 以 及 判断 给 定 的 三 个 整数 之 和 是 否 为 0 的 语句 (也许 还 


包括 记 数 的 语句 ， 不 过 这 取决 于 输入 ) 。 这 种 情况 是 很 典型 的 : 


中 的 一 小 部 分 指令 。 


许多 程序 的 运行 时 间 都 只 取决 于 其 


1.4 算法 分 析 二 113 








179| 








114 本 -第 1 章 基 ， 础 








180| 














181 








1.4.3.3 ”对 增长 数量 级 的 猜想 
总 之 ，1.4.2.3 节 中 的 实验 和 表 1.4.4 中 的 数学 模型 都 支持 以 下 猜想 : 


性 质 A。ThreeSum ( 在 NN 个 数 中 找 出 三 个 和 为 0 的 整数 元 组 的 数量 ) 的 运行 时 间 的 增长 数量 级 
为 N。 
例证 。 设 TCN 为 ThreeSum 处 理 N 个 整数 的 运行 时 间 。 根 据 前 文 所 述 的 数学 模型 有 TUN) ~ 


aN?， 其 中 常数 a 取决 于 计算 机 的 具体 型 号 。 在 许多 计算 机 上 完成 的 实验 ( 包括 你 我 的 计算 机 ) 
都 验证 了 这 个 近似 。 


在 本 书 中 ,我 们 使 用 性 质 表示 需要 用 实验 验证 的 猜想 。 数 学 分 析 的 最 终结 果 和 我 们 的 实验 分 析 
的 最 终结 果 完全 相同 一 一 ThreeSum 的 运行 时 间 是 ~ aV:， 其 中 常数 a 取决 于 计算 机 的 具体 型 号 。 这 
次 吻合 既 验 证 了 实验 结果 和 数学 模型 ， 也 揭示 了 该 程序 的 更 多 性 质 ， 因 为 我 们 不 需要 实验 就 能 确定 
和 X 的 指数 。 稍 加 努力 ， 我 们 就 能 确定 某 个 特定 系统 上 的 a 的 值 ， 不 过 这 一 般 都 只 在 有 性 能 压力 的 情 
形 下 才 需 要 由 专家 来 完成 。 


public class ThreeSum 


public static int countCint[] a) 






for (int 1 » 0;[T < RN Tt) 


for (int j = i+l: [J < W j++]) oN 























“for Cint k= jrl;/R < Ni kr] | EE 
Tr if (a[i] + a[j] + ark] == 0) “NY6 
于 一 一 二 
[rerurn cnt ys | 
Ue i 
public ‘static void main(String[] args) 
{ 内 循环 
int[] a = In.readInts(args[0]); 
StdOut .printin(count(a)) 
} 
图 1.4.4， 程序 语句 执行 频率 的 分 析 
表 1.4.4 程序 运行 时 间 的 分 析 示 例 ) 
语 名 块 “运行 时 间 ( 以 秒 记 ) - 频 率 A 总 时 间 
E 各 x (取决 于 输入 ) x 
D 在 6-ND2+N3 (NY/6—N’/2+ NI3) 
C 让 N2D-N2 6(N22-N2) 
B [3 St aN 
A LA 1 看 
- (ON? 
一 总 时 间 +(o2-02)N2 


+(03 -+N 
+ + 


近似 -~ 人 719AM (假设 zx 很 小 ) 
一 -增长 的 数量 级 -AN 
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1.4.3.4 ”算法 的 分 析 

类 似 于 性 质 A 的 猜想 的 意义 很 重要 ， 因 为 它们 将 抽象 世界 中 的 一 个 Java 程序 和 真实 世界 中 
运行 它 的 一 台 计算 机 联系 了 起 来 。 增 长 数量 级 概念 的 应 用 使 我 们 能 够 继续 向 前 迈进 一 步 : 将 程 
序 和 它 实现 的 算法 隔离 开 来 。ThreeSum 的 运行 时 间 的 增长 数量 级 是 WW， 这 与 它 是 由 Java 实现 
或 是 它 运行 在 你 的 笔记 本 电脑 上 或 是 某 人 的 手机 上 或 是 一 台 超级 计算 机 上 无 关 。 决 定 这 一 点 的 
主要 因素 是 它 需 要 检查 输入 中 任意 三 个 整数 的 所 有 可 能 组 合 。 你 所 使 用 的 算法 ( 有 时 还 要 算 上 
输入 模型 ) 决 定 了 增长 的 数量 级 。 将 算法 和 某 台 计算 机 上 的 具体 实现 分 离开 来 是 一 个 强大 的 概念 ， 
因为 这 使 我 们 对 算法 性 能 的 知识 可 以 应 用 于 任何 计算 机 。 例 如 ， 我 们 可 以 说 ThreeSum 是 暴力 算 
法 “计算 所 有 不 同 的 整数 三 元 组 的 和 ， 统 计 和 为 0 的 组 数 ”的 一 种 实现 ， 可 以 预料 的 是 在 任何 
计算 机 上 使 用 任何 语言 对 该 算法 的 实现 所 需 的 运行 时 间 都 是 和 成 正比 的 。 实 际 上 ， 经 典 算法 
的 性 能 理论 大 部 分 都 发 表 于 数 十 年 前 ,但 它们 仍然 适用 于 今天 的 计算 机 。 
1.4.3.5 成 本 模型 

我 们 使 用 了 一 个 成 本 模型 来 评估 算法 的 性 质 。 


这 个 模型 定义 了 我 们 所 研究 的 算法 中 的 基本 操作 。 3-sum 的 成 本 模型 。 在 研究 解决 
例如 ， 适 合 于 右 侧 所 示 的 3-sum 问题 的 成 本 模型 是 3-sum 问题 的 算法 时 ， 我 们 记录 的 
我 们 访问 数组 元 素 的 次 数 。 是 数组 的 访问 次 数 (访问 数组 元 素 


在 这 个 成 本 模型 之 下 ， 我 们 可 以 用 精确 的 数学 的 次 数 ， 无 论 读 写 ) 。 
语言 说 明 算 法 而 非 某 个 特定 实现 的 性 质 ， 如 下 : 


命题 B。3-sum 的 暴力 算法 使 用 了 ~ N2/2 次 数组 访问 来 计算 N 个 整数 中 和 为 0 的 整数 三 元 组 
的 数量 。 


证 明 。 该 算法 访问 了 ~ N2/6 个 整数 三 元 组 中 的 所 有 3 个 整数 。 


我 们 使 用 术语 命题 来 表示 在 某 个 成 本 模型 下 算法 的 数学 性 质 。 在 全 书 中 我 们 都 会 使 用 某 个 
确定 的 成 本 模型 研究 所 讨论 的 算法 。 我 们 希望 通过 明确 成 本 模型 使 给 定 实现 所 需 的 运行 时 间 的 
增长 数量 级 和 它 背 后 的 算法 的 成 本 的 增长 数量 级 相同 ( 换 句 话说 ， 成 本 模型 应 该 和 内 循环 中 的 
操作 相关 ) 。 我 们 会 研究 算法 准确 的 数学 性 质 ( 命题 ) 并 对 实现 的 性 能 作出 猜想 ( 性 质 ) ， 可 
以 通过 实验 验证 这 些 猜想 。 在 本 例 中 ,命题 B 的 数学 结论 支持 了 性 质 A 中 由 科学 方法 得 到 并 由 
实验 验证 过 的 猜想 。 
1.4.3.6 总 结 

对 于 大 多 数 程序 ， 得 到 其 运行 时 间 的 数学 模型 所 需 的 步骤 如 下 : 

口 确定 输入 模型 ， 定 义 问题 的 规模 ; 

口 识别 内 循环 ; 

口 根据 内 循环 中 的 操作 确定 成 本 模型 ; 

口 对 于 给 定 的 输入 ， 判 断 这 些 操作 的 执行 频率 。 这 可 能 需要 进行 数学 分 析 一 一 我 们 在 本 书 

中 会 在 学 习 具体 的 算法 时 给 出 一 些 例子 。 

如 果 一 个 程序 含有 多 个 方法 ， 我 们 一 般 会 分 别 讨论 它们 ， 例 如 我 们 在 1.1 节 中 见 过 的 示例 程 
序 BinarySearch。 

二 分 查找 。 它 的 给 入 模型 是 大 小 为 N 的 数组 a[] ,内 狂 环 是 一 个 while 循环 中 的 所 有 语句 ， 
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成 本 模型 是 比较 操作 ( 比较 两 个 数组 元 素 的 值 ) 。3.1 节 中 详细 完整 地 给 出 了 1.1 节 中 所 讨论 过 的 命 
题 B 的 证 明 ， 该 命题 说 明 它 所 需 的 比较 次 数 最 多 为 lgN+1。 

白 名 单 。 它 的 输入 模型 是 白 名 单 的 大 小 N 和 由 标准 输入 得 到 的 M 个 整数 ， 且 我 们 假设 M>>N， 
内 循环 是 一 个 while 循环 中 的 所 有 语句 ， 成 本 模型 是 比较 操作 ( 承 自 二 分 查找 ) 。 由 二 分 查找 的 分 
析 我 们 可 以 立即 得 到 对 白 名 单 问题 的 分 析 一 一 比较 次 数 最 多 为 M(lgN+1)。 
根据 以 下 因素 我 们 可 以 知道 ， 白 名 单 问题 计算 所 需 时 间 的 增长 数量 级 最 多 为 MigN: 
口 如 果 入 很 小 ,， 输入 一 输出 可 能 会 成 为 主要 成 本 。 
口 比较 的 次 数 取 决 于 输入 一 一 在 ~ M 和 ~ MigN 之 间 ， 取 决 于 标准 输入 中 有 多 少 个 整数 在 白 名 
单 中 以 及 二 分 查找 需要 多 久 才能 找 出 它们 ( 一 般 来 说 为 ~ MlgN ) 。 
口 我 们 假设 Arrays.sort0) 的 成 本 远 小 于 MigN。Arrays.sort() 使 用 的 是 2.2 节 中 的 归并 
排序 算法 。 我 们 会 看 到 归并 排序 的 运行 时 间 的 增长 数量 级 为 MogN ( 请 见 第 2 章 的 命题 G ) ， 
因此 这 个 假设 是 合理 的 。 
因此 ， 该 模型 支持 了 我 们 在 1.1 节 中 作出 的 假设 ， 即 当 M 和 和 很 大 时 二 分 查找 算法 也 能 够 完成 
计算 。 如 果 我 们 将 标准 输入 流 的 长 度 加 倍 ， 可 以 预计 的 是 运行 时 间 也 将 加 倍 ; 如 果 我 们 将 白 名 单 的 
大 小 加 倍 ， 可 以 预计 的 是 运行 时 间 只 会 稍 有 增加 。 

在 算法 分 析 中 进行 数学 建 模 是 一 个 多 产 的 研究 领域 ， 但 它 多 少 超出 了 本 书 的 范畴 。 通 过 二 分 查 
找 、 归 并 排序 和 其 他 许多 算法 你 仍 会 看 到 ， 理 解 特定 的 数学 模型 对 于 理解 基础 算法 的 运行 效率 是 很 
关键 的 ， 因 此 我 们 常常 会 详细 地 证 明 它们 或 是 引用 经 典 研 究 中 的 结论 。 在 其 中 ,我 们 会 遇 到 各 种 数 
学 分 析 中 广泛 使 用 的 函数 和 近似 函数 。 作 为 参考 ， 我 们 分 别 在 表 1.4.5 和 表 1.4.6 中 对 它们 的 部 分 信 
息 进行 了 总 结 。 


表 1.4.5 算法 分 析 中 的 常见 函数 
i 





描述 记 号 定义 
向 下 取 整 (floor ) | 不 大 于 x 的 最 大 整数 
向 上 取 整 (ceiling ) [3 不 小 于 x 的 最 小 整数 
自然 对 数 InN logMe'=N) 
以 2 为 底 的 对 数 lgN log:N(2°=N) 
以 2 为 底 的 整 型 对 数 Lev RE 
调和 级 数 Hy 1+1/2+1/3+1/4++ UN 
阶乘 MN 1x2x3x4x…xN 


表 1.4.6 算法 分 析 中 常用 的 近似 函数 





描述 近似 函数 
调和 级 数 求 和 HI+12+13+14+ +IN ~ InN 
等 差 数列 求 和 1+24344+…HN ~ NJ2 
等 比 数列 求 和 14244+8+…4N=2N_1 ~ 2N， 其 中 2 
斯 特 灵 公式 lgN=lgl+lg2+lg3+lg4+…+lgN ~ NgN 
二 项 式 系数 [站 -wa 其 中 为数 


指数 函数 (1-1/x)’ ~ le 
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1.4.4 ”增长 数量 级 的 分 类 

我 们 在 实现 算法 时 使 用 了 几 种 结构 性 的 原 语 ( 普通 语句 、 条 件 语 句 、 循 环 、 赃 套 语句 和 方法 调 
用 ) ， 所 以 成 本 增长 的 数量 级 一 般 都 是 问题 规模 N 的 若干 函数 之 一 。 表 1.4.7 总 结 了 这 些 函 数 以 及 
它们 的 称谓 、 与 之 对 应 的 典型 代码 以 及 一 些 例子 。 


表 1.4.7 对 增长 数量 级 的 常见 假设 的 总 结 


























描述 增长 的 数量 级 典型 的 代码 说 上 明 举 例 
常数 级 别 1 a=b+ci 普通 语句 ”将 两 个 数 相 加 
对 数 级 别 log N (请 见 1.1.10.2 节 ， 二 分 查找 ) 二 分 策略 ”二 分 查找 

double max = a[0]; 
线性 级 别 N for Cint i = 1; i < N; i++) 循环 找 出 最 大 元 素 
if (a[i] > max) max = a[i]; 
线性 对 数 级 别 NlogN [请 见 算法 2.4] 分 治 归并 排序 
for (int 1 = 0; 1 <N; it+) 
平方 级 别 由 ore 双 层 循环 检查 所 有 元 素 对 
Cnt++; 
for (int 1 = 0; 1 < N; i++) 
for (int j = i+l; j < N; j++) 
立方 级 别 AN for (int k = j+1; k < N; k++) = 层 循环 检查 所 有 三 元 组 
if (a[i] + arj] + a[k] == 0) 
cnt++i 
指数 级 别 如 (请 见 第 6 章 ) 穷 举 查找 ”检查 所 有 子 集 


1.4.4.1 常数 级 别 

运行 时 间 的 增长 数量 级 为 常数 的 程序 完成 它 的 任务 所 需 的 操作 次 数 一 定 ， 因 此 它 的 运行 时 间 不 
依赖 于 N。 大 多 数 的 Java 操作 所 需 的 时 间 均 为 常数 。 
1.4.4.2 ”对 数 级 别 

运行 时 间 的 增长 数量 级 为 对 数 的 程序 仅 比 常数 时 间 的 程序 稍 慢 。 运 行 时 间 和 问题 规模 成 对 数 关 
系 的 程序 的 经 典 例子 就 是 二 分 查找 ( 请 见 1.1.10.2 节 的 BinarySearch ) 。 对 数 的 底数 和 增长 的 数量 
级 无 关 (因为 不 同 的 底数 仅 相当 于 一 个 常数 因子 ) ， 所 以 我 们 在 说 明 对 数 级 别 时 一 般 使 用 logN。 
1.4.4.3 ”线性 级 别 

使 用 常数 时 间 处 理 输入 数据 中 的 所 有 元 素 或 是 基于 单个 for 循环 的 程序 是 十 分 常见 的 。 此 类 程 
序 的 增长 数量 级 是 线性 的 一 一 它 的 运行 时 间 和 成 正比 。 
1.4.4.4 ”线性 对 数 级 别 

我 们 用 线性 对 数 描述 运行 时 间 和 问题 规模 N 的 关系 为 MogN 的 程序 。 和 之 前 一 样 ， 对 数 的 底数 
和 增长 的 数量 级 无 关 。 线 性 对 数 算法 的 典型 例子 是 Merge.sort( 请 见 算法 2.4) 和 Quick.sortO( 请 
见 算法 2.5 ) 。 
1.4.4.5 平方 级 别 

-个 运行 时 间 的 增长 数量 级 为 Y 的 程序 一 般 都 含有 两 个 嵌 套 的 for 循环 ， 对 由 N 个 元 素 得 到 

的 所 有 元 素 对 进行 计算 。 初 级 排序 算法 Selection.sort() (请 见 算法 2.1) 和 Insertion.sort() 
(请 见 算法 2.2 ) 都 是 这 种 类 型 的 典型 程序 。 
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1.4.4.6 立方 级 别 

一 个 运行 时 间 的 增长 数量 级 为 Y 的 程序 一 般 都 含有 三 个 嵌 套 的 for 循环 ， 对 由 N 个 元 素 得 
到 的 所 有 三 元 组 进行 计算 。 本 节 中 的 ThreeSum 就 是 一 个 典型 的 例子 。 
1.4.4.7 ”指数 级 别 

在 第 6 章 中 (也 只 会 在 第 6 章 ) 我 们 将 会 遇 到 运行 时 间 和 2* 或 者 更 高 级 别 的 函数 成 正比 的 
程序 。 一 般 我 们 会 使 用 指数 级 别 来 描述 增长 数量 级 为 b* 的 算法 ， 其 中 b>1 且 为 常数 ， 尽 管 不 同 
的 b 值得 到 的 运行 时 间 可 能 完全 不 同 。 指 数 级 别 的 算法 非常 慢 一 一 不 可 能 用 它们 解决 大 规模 的 
问题 。 但 指数 级 别 的 算法 仍然 在 算法 理论 
中 有 着 重要 的 地 位 ， 因 为 它们 看 起 来 仍然 
是 解决 许多 问题 的 最 佳 方案 。 

以 上 是 最 常见 分 类 ， 但 肯定 不 是 最 全 
面 的 。 算 法 的 增长 数量 级 可 能 是 NlogN 
或 者 NM 或 者 是 其 他 类 似 的 函数 。 实 际 上 ， 
详细 的 算法 分 析 可 能 会 用 到 若干 个 世纪 以 
来 发 明 的 各 种 数学 工具 。 

我 们 所 学 习 的 一 大 部 分 算法 的 性 能 特 
点 都 很 简单 ， 可 以 使 用 我 们 所 讨论 过 的 某 
种 增长 数量 级 函数 精确 地 描述 。 因 此 ， 我 
们 可 以 在 某 个 成 本 模型 下 提出 十 分 准确 的 
命题 。 例 如 ， 归 并 排序 所 需 的 比较 次 数 在 
1/2MgN 到 MgN 之 间 ， 由 此 我 们 立即 可 
知 归 并 排序 所 需 的 运行 时 间 的 增长 数量 级 
是 线性 对 数 的 。 简 单 起 见 ， 我 们 将 这 句 话 
简写 为 归并 排序 是 线性 对 数 的 。 

图 1.4.5 显示 了 增长 数量 级 函数 在 实 
际 应 用 中 的 重要 性 。 其 中 x 轴 为 问题 规模 ， 
y 轴 为 运行 时 间 。 这 些 图 表 清 晰 的 说 明了 
平方 级 别 和 立方 级 别 的 算法 对 于 大 规模 的 
问题 是 不 可 用 的 。 许 多 重要 的 问题 的 直观 
解法 是 平方 级 别 的 ， 但 我 们 也 发 现 了 它们 
的 线性 对 数 级 别 的 算法 。 此 类 算法 ( 包括 
归并 排序 ) 在 实践 中 非常 重要 ， 因 为 它们 





能 够 解决 的 问题 规模 远大 于 平方 级 别 的 解 
法 能 够 处 理 的 规模 。 因 此 ， 在 本 书 中 我 们 

自然 希望 为 各 种 基础 问题 找到 对 数 级 别 、 和 et 
线性 级 别 或 是 线性 对 数 级 别 的 算法 。 i 


1.4.5 ”设计 更 快 的 算法 


学 习 程序 的 增长 数量 级 的 一 个 重要 动力 是 为 了 帮助 我 们 为 同一 个 问题 设计 更 快 的 算法 。 为 
了 说 明 这 一 点 ， 我 们 下 面 来 讨论 一 个 解决 3-sum 问题 的 更 快 的 算法 。 我 们 甚至 还 没有 开始 学 习 
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算法 ， 怎 么 知道 如 何 设计 一 个 更 快 的 算法 呢 ? 这 个 问题 的 答案 是 ， 我 们 已 经 讨论 并 使 用 过 两 个 经 典 
的 算法 ， 即 昌 并 关 序 和 二 分 查找 ”也 知 和 归并 排序 是 线性 对 数 级 别 的 ， 一 分 查 是 对 数 豚 别 的 。 如 
何 利用 它们 解决 3-sum 问题 呢 ? 
1.4.5.1 热身 运动 2-sum 二 

我 们 先 来 考虑 这 个 问题 的 简化 版 本 ， 即 找 出 一 个 输入 文件 中 所 有 和 为 0 的 整数 对 的 数量 。 简 
单 起 见 ， 我 们 还 假设 所 有 整数 均 各 不 相同 。 这 个 问题 很 容易 在 平方 级 别 解决 ， 只 需 将 Threesum 
count ) 中 关于 k 的 循环 和 a[k] 去 掉 即 可 得 到 一 个 双 层 循环 来 检查 所 有 的 整数 对 ， 如 表 1.4.7 中 的 
平方 级 别 条 目 所 示 (我 们 将 这 个 实现 称 为 TwoSum ) 。 下 面 这 个 实现 显示 了 归并 排序 和 二 分 查找 是 
如 何在 线性 对 数 级 别 解决 2-sum 问题 的 。 改 进 后 的 算法 的 思想 是 当 且 仅 当 -a[i] 存在 于 数组 中 ( 且 
ai] 非 零 ) 时 ，a[i] 存在 于 某 个 和 为 0 的 整数 对 之 中 。 要 解决 这 个 问题 ,我 们 首先 将 数组 排序 (为 
二 分 查找 做 准备 ) ， 然 后 对 于 数组 中 的 每 个 a[i] ， 使 用 BinarySearch 的 rank0) 方法 对 -a[i] 进行 
二 分 查找 。 如 果 结果 为 了 且 j>i， 我 们 就 将 计数 器 加 1。 这 个 简单 的 条 件 测试 获 盖 了 三 种 情况 : 

口 如 果 二 分 查找 不 成 功 则 会 返回 -1， 因 此 我 们 不 会 增加 计数 器 的 值 ; 

口 如 果 二 分 查找 返回 的 j>i， 我 们 就 有 ari] + a[j] = 0， 增 加 计数 器 的 值 ; 

口 如 果 二 分 查找 返回 的 j 在 0 和 ii 之 问 , 我 们 也 有 ari] + a[j] = 0, 但 不 能 增加 计数 器 的 值 ， 

以 避免 重复 计数 。 

这 样 得 到 的 结果 和 平方 级 别 的 算 
法 得 到 的 结果 完全 相同 ， 但 它 所 需 的 
时 间 要 少 得 多 。 归 并 排序 所 需 的 时 间 。 Ws Sa WoW as 


import java.util.Arrays; 














和 MogN 成 正比 ， 二 分 查找 所 需 的 时 public static int coUiitCincr] a) 
间 和 logN 成 正比 ， 因 此 整个 算法 的 ee 
“运行 时 间 和 NlogN 成 正比 。 像 这 样 设 int N = a.lengthy 
int t = 0 
计 一 个 更 快 的 算法 并 不 仅仅 是 一 种 学 fe Cine 1 0 
院 派 的 练习 一 一 更 快 的 算法 使 我 们 能 if (BinarySearch. rank(-a[i], a) > i) 
够 解决 更 庞大 的 问题 。 例 如 ， 你 现在 AS 
可 以 在 可 接受 的 时 间 范 围 内 在 计算 机 } 
上 解决 100 万 个 整数 (1Mints.txt) public static void main(String[] args) 189 
的 2-sum 问题 了 ， 但 如 果 用 平方 级 别 int[] a = In.readInts(args[0]); 
的 算法 你 肯定 需要 等 上 很 长 很 长 的 时 StdOut .printinCcount (a)); 
间 (请 见 练习 1.4.41 ) 。 人 
1.4.5.2 3-sum 问题 的 快速 算法 
这 种 方式 对 3-sum 问题 同样 有 2-sum 问题 的 线性 对 数 级 别 的 解法 


效 。 和 刚才 一 样 ， 我 们 假设 所 有 整数 

均 各 不 相同 。 当 且 仅 当 -(a[i] + a[j) 在 数组 中 (不 是 a[i] 也 不 是 arj] ) 时 ， 整 数 对 (a[i] 和 
afj]) 为 某 个 和 为 0 的 三 元 组 的 一 部 分 。 下 面 代码 框 中 的 代码 会 将 数组 排序 并 进行 MN-1)/2 次 二 分 
查找 ， 每 次 查找 所 需 的 时 间 都 和 logN 成 正比 。 因 此 总 运行 时 间 和 NlogN 成 正比 。 可 以 注意 到 ,在 
这 种 情况 下 排序 的 成 本 是 次 要 因素 。 这 个 解法 也 使 我 们 能 够 解决 更 大 规模 的 问题 ( 请 见 练习 1.4.42 ) 。 
图 1.4.6 显示 了 用 这 4 种 算法 解决 我 们 提 到 过 的 几 种 问题 规模 时 的 成 本 的 悬殊 差距 。 这 样 的 差距 显 
然 是 我 们 追求 更 快 的 算法 的 动力 。 
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1.4.5.3 下 界 

” 表 1.4.8 总 结 了 本 节 所 讨 
论 的 内 容 。 我 们 立即 产生 了 一 
个 有 趣 的 疑问 : 我 们 还 能 找到 
比 2-sum 问题 的 TwoSumFast 
和 3-sum 问题 的 ThreeSumFast 
快 得 多 的 算法 吗 ? 是 否 存在 解 
决 2-sum 问题 的 线性 级 别 的 算 
法 ，3-sum 问题 的 线性 对 数 级 


别 的 算法 ? 对 于 2-sum， 这 个 - 





import java.util.Arrays; 


public class ThreeSunFast 


{ 


public static int count(int[] a) 
了 // 计算 和 为 0 的 三 元 组 的 数目 

Arrays.sort(a); 

int N = a, Jengthy 

int cnt = 0; 

for (int 1 = 0; 1 < N; i++) 

for Cint j = i+1; j < Ni j+#) 
if (BinarySearch.rank(-a[i]-a[j], a) > j) 





Cnt++; 
问题 的 回答 是 没有 ( 成 本 模型 return cnt; 
仅 允 许 使 用 并 计算 这 些 整数 的 了 RE 
线性 或 是 平方 级 别 的 函数 中 的 public statie yofd mainsrringD args) 


int[] a = InreadInts(args[0]); 
StdOut ,printin(count (a)); 


比较 操作 ) ; 对 于 3-sum， 回 
答 是 不 知道 ， 不 过 专家 们 相信 
3-sum 可 能 的 最 优 算法 是 平方 了 
级 别 的 。 为 算法 在 最 坏 情况 下 
J 的 运行 时 间 给 出 一 个 下 界 的 思 3-sum 同 题 的 Vlg N 解 法 
想 是 非常 有 意义 的 ， 我 们 会 在 22 节 中 学 习 排 序 时 再 次 表 1.4.8 运行 时 间 的 总 结 

















讨论 它 。 复 杂 的 下 界 是 很 难 找到 的 ,但 它 非常 有 助 于 指 健 二 妆 运行 时 间 的 增长 数量 级 
引 我 们 追求 更 加 有 效 的 算法 。 TwoSum NM 
本 节 中 所 讨论 的 例子 为 我 们 学 习 本 书 中 的 其 他 算法 TwoSumFast NiogN 
打下 了 基础 。 在 本 书 中 ， 我 们 会 按照 以 下 方式 解决 各 种 Tree ” 
新 的 问题 。 ThreeSumFast NlogN 
100 
宝生 R 
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次 
员 0 加 
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图 14.6 解决 2-sum 和 3-sum 问题 的 各 种 算法 的 成 本 
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口 实现 并 分 析 该 问题 的 一 种 简单 的 解法 。 我 们 通常 将 它们 称 为 暴力 算法 ， 例 如 ThreeSum 和 
TwoSum。 
口 考查 算法 的 各 种 改进 ， 它 们 通常 都 能 降低 算法 所 需 的 运行 时 间 的 增长 数量 级 ， 例 如 
TwoSumFast 和 ThreeSumFast。 
口 用 实验 证 明 新 的 算法 更 快 。 
在 许多 情况 下 ， 我 们 会 学 习 解决 同一 个 问题 的 多 种 算法 ， 因 为 对 于 实际 问题 来 说 运行 时 间 只 是 
选择 算法 时 所 要 考虑 的 各 种 因素 之 一 。 在 本 书 中 我 们 会 在 解决 各 种 基础 问题 时 逐渐 理解 这 一 点 。 


1.4.6 ”倍率 实验 


下 面 这 种 方法 可 以 简单 有 效 地 预测 任意 程序 的 性 能 并 判断 它们 的 运行 时 间 大 致 的 增长 数量 级 。 
口 开 发 一 个 输入 生成 器 来 产生 实际 情况 下 的 各 种 可 能 的 输入 ( 例如 DoublingTest 中 的 
timeTrial() 方法 能 够 生成 随机 整数 ) 。 
口 运行 下 方 的 DoublingRatio 程序 ， 它 是 DoublingTest 的 修改 版本， 能够 计算 每 次 实验 和 上 一 
次 的 运行 时 间 的 比值 。 
口 反复 运行 直到 该 比值 趋 近 于 极限 2*。 
这 个 实验 对 于 比值 没有 极限 的 算法 无 效 ， 但 它 仍然 适用 于 许多 程序 ,我们 可 以 得 出 以 下 结论 。 
口 它们 的 运行 时 间 的 增长 数量 级 约 为 。 
口 要 预测 一 个 程序 的 运行 时 间 ， 将 上 次 观察 得 到 的 运行 时 间 乘 以 2* 并 将 NX 加 倍 ， 如 此 反复 。 
如 果 你 希望 预测 的 输入 规模 不 是 N 乘 以 2 的 宕 ,可 以 相应 地 调整 这 个 比例 ( 请 见 练习 1.4.9 ) 。 
如 下 所 示 ，ThreeSum 的 比例 约 为 8， 因 此 我 们 可 以 预测 程序 对 于 N=16 000、32 000 和 64 000 
的 运行 时 间 将 分 别 为 408.8、3270.4 和 26 163.2 秒 ， 也 就 是 处 理 8000 个 整数 所 需 的 时 间 (51.1 秒 ) 
连续 乘 以 8 即 可 。 


实验 程序 
public class DoublingRatio 试验 结果 
{ 
public static double timeTrialCint N) % java a 
// 参见 DoublingTest (请 见 1.42.3 节 实验 程序 ) 250 0.0 2.7 
public static void mainCString[] args) 500 0.0 4.8 
{ 1000 0.1 6.9 
double prev = timeTrial(125); 2000 0.8 7.7 
for (int N = 250; true; N += N) 4000 6.4 8.0 
{ 8000 51.1 8.0 
double time = timeTrial(N); 
StdOut .printf("%6d %7.1f ", N, time); 
StdOut.printf("%5.1f\n", time/prev); 预测 
prev = time; 
1 16000 408.8 8.0 
32000 3270.4 8.0 
} 64000 26163.2 8.0 
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该 测试 基本 类 似 于 1.4.2.3 节 所 描述 的 过 程 ( 运行 实验 , 绘 出 对 数 图 像 得 到 运行 时 间 为 aV: 的 猜想 ， 
从 直线 的 斜率 得 到 六 的 值 ， 然后 算出 a) ， 但 它 更 容易 使 用 。 事 实 上 ， 可 以 手工 通过 DoublingRatio 
“准确 地 预测 程序 的 性 能 。 在 比例 趋 近 于 极限 时 ， 只 需要 不 断 乘 以 该 比例 即 可 得 到 更 大 规模 的 问题 的 
运行 时 间 。 这 里 ， 增 长 数量 级 的 近似 模型 是 一 个 短 次 法 则 ， 指数 为 该 比例 的 以 2 为 底 的 对 数 。 
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为 什么 这 个 比例 会 趋向 于 一 个 常数 ? 简单 的 数学 计算 显示 我 们 讨论 过 的 所 有 常见 的 增长 数量 级 
函数 ( 指数 级 别 除外 ) 均 会 出 现 这 种 情况 : 


命题 C。( 们 率 定 理 ) 如 果 TOV) ~ aVlgN， 那 么 TC2N)/T(N) ~ 2 


证 明 。T(2N/T(N)= a(2N lg(2NYaNleN 
=2'(1+lg2/eN) 
一 2 


一 般 来 说 ， 数学 模型 中 的 对 数 项 是 不 能 忽略 的 ， 但 在 信 素 假设 中 它 在 预测 性 能 的 公式 中 的 作用 
并 不 那么 重要 。 

在 有 性 能 压力 的 情况 下 应 该 考虑 对 编写 过 的 所 有 程序 进行 倍率 实验 一 这 是 一 种 估计 运行 时 间 
的 增长 数量 级 的 简单 方法 ， 或 许 它 能 够 发 现 一 些 性 能 问题 ， 比 如 你 的 程序 并 没有 想象 的 那样 高 效 。 
一 般 来 说 ,我 们 可 以 用 以 下 方式 对 程序 的 运行 时 间 的 增长 数量 级 作出 假设 并 预测 它 的 性 能 。 
1.4.6.1 评估 它 解决 大 型 问题 的 可 行 性 

对 于 编写 的 每 个 程序 ， 你 都 需要 能 够 回答 这 个 基本 问题 : “该 程序 能 在 可 接受 的 时 间 内 处 理 这 
些 数据 吗 ?.” 对 于 大 量 数据 ， 要 回答 这 个 问题 我 们 需要 一 个 比 乘 以 2 更 大 的 系数 ( 比如 10 ) 来 进行 
推断 ， 如 表 1.4.9 所 示 。 无 论 是 投资 银行 家 处 理 每 日 的 金融 数据 还 是 工程 师 对 设计 进行 模拟 测试 
定期 运行 需要 若干 个 小 时 才能 完成 的 程序 是 很 常见 的 ， 表 1.4.9 的 重点 也 就 是 这 些 情况 。 了 解 程序 
的 运行 时 间 的 增长 数量 级 能 够 为 你 提供 精确 的 信息 ， 从 而 理解 你 能 够 解决 的 问题 规模 的 上 限 。 理 解 
诸如 此 类 的 问题 ， 是 研究 性 能 的 首要 原因 。 没 有 这 些 知识 ， 你 将 对 一 个 程序 所 需 的 时 间 一 无 所 知 ; 
而 如 果 你 有 了 它们 ， 一 张 信 封 的 背面 就 足够 你 计 行 所 需 的 时 间 并 采取 相应 的 行动 。 ， 
1.4.6.2 ”评估 使 用 更 快 的 计算 机 所 产生 的 价值 

你 可 能 会 面 对 的 另 一 个 基本 问题 是 ，“ 如 果 我 能 够 得 到 一 台 更 快 的 计算 机 ， 解 决 问题 的 速度 能 
够 加 快 多 少 ? ”一 般 来 说 ， 如 果 新 计算 机 比 老 的 快 + 信 ， 运 行 时 间 也 将 变 为 原来 的 x 分 之 一 。 但 你 
一 般 都 会 用 新 计算 机 来 处 理 更 大 规模 的 问题 ， 这 将 会 如 何 影响 所 需 的 运行 时 间 呢 ? 同样 ， 增 长 的 数 
量 级 信息 也 正 是 你 回答 这 个 问题 所 需要 的 。 

著名 的 摩尔 定律 告诉 我 们 ，18 个 月 后 计算 机 的 速度 和 内 存 容量 都 会 翻 一 番 ，5 年 后 计算 机 的 束 
度 和 内 存 容量 都 会 变 为 现在 的 10 倍 。 表 1.4.9 说 明 如 果 你 使 用 的 是 平方 或 者 立方 级 别 的 算法 ， 摩 尔 
定律 就 不 适用 了 。 进行 售 率 测试 并 检查 随 着 输入 规模 的 信 增 前 后 运行 时 间 之 比 是 趋向 于 2 而 非 4 或 





者 8 人 





-5 表 1.4.9 根据 增长 的 数量 级 函数 作出 的 预测 
运行 时 间 的 增长 数量 级 处 理 输入 规模 为 N 的 数据 需要 若干 小 时 的 某 个 程序 








描述 函数 TR 处 理 10N 的 预计 时 间 ”在 快 10 倍 的 计算 机 上 处 理 10N 的 预计 时 间 
线性 级 别 2 10 一 天 几 个 小 时 
线性 对 数 级 别 MogN 2 10 - oR 几 个 小 时 
平方 级 别 ba 4 100 。“ 必 个 星期 ~ 
立方 级 别 vw 8 1000 几 个 月 几 个 星期 
指数 级 别 人 党 永远 永远 
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1.4.7 ”注意 事项 

在 对 程序 的 性 能 进行 仔细 分 析 时 ， 得 到 不 -- 致 或 是 有 误导 性 的 结果 的 原因 可 能 有 许多 种 。 它 们 
都 是 由 于 我 们 的 猜想 基于 的 一 个 或 多 个 假设 并 不 完全 正确 所 造成 的 。 我 们 可 以 根据 新 的 假设 得 出 新 
的 猜想 ， 但 我 们 考虑 的 细节 越 多 ， 在 分 析 中 需要 注意 的 方面 也 就 越 多 。 
1.4.7.1 大 常数 

在 首 项 近似 中 ， 我们 一 般 会 忽略 低级 项 中 的 常数 系数 ， 但 这 可 能 是 错 的 。 例 如 ， 当 我 们 取 函 
数 2MN+ceN 的 近似 为 ~ 2W 时 ,我们 的 假设 是 c 很 小 。 如 果 事 实 不 是 这 样 ( 比如 < 可 能 是 10 或 是 
105 ) ， 该 近似 就 是 错误 的 。 因 此 ， 我 们 要 对 可 能 的 大 常数 保持 敏感 。 
1.4.7.2， 非 决定 性 的 内 循环 

内 循环 是 决定 性 因素 的 假设 并 不 总 是 正确 的 。 错 误 的 成 本 模型 可 能 无 法 得 到 真正 的 内 循环 ， 问 
题 的 规模 N 也 许 没 有 大 到 对 指令 的 执行 频率 的 数学 描述 中 的 首 项 大 大 超过 其 他 低级 项 并 可 以 忽略 它 
们 的 程度 。 有 些 程 序 在 内 循环 之 外 也 有 大 量 指令 需要 考虑 。 换 句 话说 ， 成 本 模型 可 能 还 需要 改进 。 
1.4.7.3 ”指令 时 间 

每 条 指令 执行 所 需 的 时 间 总 是 相同 的 假设 并 不 总 是 正确 的 。 例 如 ， 大 多 数 现代 计算 机 系统 都 会 
… 使 用 缓存 技术 来 组 织 内 存 ， 在 这 种 情况 下 访问 大 数组 中 的 若干 个 并 不 相 邻 的 元 素 所 需 的 时 间 可 能 很 
长 。 如 果 让 DoublingRatio 运行 的 时 间 长 一 些 ， 你 可 能 可 以 观察 到 缓存 对 ThreeSum 所 产生 的 效果 。 
在 运行 时 间 的 比例 看 似 收敛 到 8 以 后 ， 由 于 缓存 ， 对 于 大 数组 该 比例 也 可 能 突然 变 为 很 大 的 值 。 
1.4.7.4 ”系统 因素 l 和 

一 般 来 说 ， 你 的 计算 机 总 是 同时 运行 着 许多 程序 。Java 只 是 争夺 资源 的 众多 应 用 程序 之 一 ， 而 
且 Java 本 身 也 有 许多 能 够 大 大 影响 程序 性 能 的 选项 和 设置 。 某 种 垃圾 收集 器 或 是 JIT 编译 器 或 是 正 
在 从 因特网 中 进行 的 下 载 都 可 能 极 大 地 影响 实验 的 结果 。 这 些 因素 可 能 会 干扰 到 实验 必须 是 可 重 现 
的 这 条 科学 研究 的 基本 原则 ， 因 为 此 时 此 刻 计算 机 中 所 发 生 的 一 切 是 无 法 再 次 重 现 的 。 原 则 上 来 说 
此 时 系统 中 运行 的 其 他 程序 应 该 是 可 以 忽略 或 可 以 控制 的 。 
1.4.7.5 不 分 伯仲 

在 我 们 比较 执行 相同 任务 的 两 个 程序 时 ， 常 常 出 现 的 情况 是 其 中 一 个 在 某 些 场景 中 更 快 而 在 另 
一 些 场景 中 更 慢 。 我 们 已 经 提 到 过 的 一 些 因素 可 能 会 造成 这 种 差异 。 有 些 程序 员 ( 以 及 一 些 学 生 ) 
特别 喜欢 投入 大 量 精力 进行 比赛 并 找 出 “最 佳 ”的 实现 ， 但 此 类 工作 最 好 还 是 留 给 专家 。 
1.4.7.6 ”对 输入 的 强烈 依赖 

在 研究 程序 的 运行 时 间 的 增长 数量 级 时 ， 我 们 首先 作出 的 几 个 假设 之 一 就 是 运行 时 间 应 该 和 输 
人 相对 无 关 。 当 这 个 条 件 无 法 满足 时 ， 我 们 很 可 能 无 法 得 到 一 致 的 结果 或 是 验证 我 们 的 狂想。 例如， 
假设 我 们 为 回答 : “输入 中 是 否 存在 和 为 0 的 三 个 整数 ? ”而 修改 ThreeSum 并 返回 boolean 值 ， 
将 cnt++ 替换 为 return true 并 在 最 后 加 上 return- false 作为 结尾 ， 那 么 如 果 输 入 中 的 头 三 个 
整数 的 和 为 0， 该 程序 的 运行 时 间 的 增长 数量 级 为 常数 级 别 ; 如 果 输入 不 含有 这 样 的 三 个 整数 ， 程 
序 的 运行 时 间 的 增长 数量 级 则 为 立方 级 别 。 
1.4.7.7 多 个 问题 参量 

我 们 过 去 的 重点 一 直 是 使 用 仅 需 要 一 个 参量 的 函数 来 衡量 程序 的 性 能 ， 参 量 一 般 是 命令 行 参 数 
或 是 输入 的 规模 。 但 是 ,多 个 参量 也 是 可 能 的 。 典 型 的 例子 是 需要 构造 一 个 数据 结构 并 使 用 该 数据 
结构 进行 一 系列 操作 的 算法 。 在 这 种 应 用 程序 中 数据 结构 的 大 小 和 操作 的 次 数 都 是 问题 的 参量 。 我 
们 已 经 见 过 一 个 这 样 的 例子 ， 即 对 使 用 二 分 查找 的 白 名 单 问题 的 分 析 ， 其 中 白 名 单 中 及 个 整数 而 
输入 中 有 M 个 整数 ， 运 行 时 间 一 般 和 MiogN 成 正比 。 
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尽管 需要 注意 的 问题 很 多 ， 对 于 每 个 程序 员 来 说 ， 对 程序 的 运行 时 间 的 增长 数量 级 的 理解 都 是 
非常 有 价值 的 ， 而 且 我 们 这 里 所 描述 的 方法 也 都 十 分 强大 并 且 应 用 范围 广泛 。Knuth 证 明了 原则 上 
我 们 只 要 正确 并 完整 地 使 用 了 这 些 方法 就 能 够 对 程序 作出 详细 准确 的 预测 。 计 算 机 系统 -- 般 都 非常 
复杂 ， 完 整 精确 的 分 析 最 好 留 给 专家 们 ， 但 相同 的 方法 也 可 以 有 效 地 近似 估计 出 任何 程序 所 需 的 运 
行 时 间 。 火 箭 科学 家 需要 大 致知 道 一 枚 试验 火箭 的 着 陆地 点 是 在 大 海里 还 是 在 城市 中 ; 医学 研究 者 
需要 知道 一 次 药物 测试 是 会 杀 死 还 是 治愈 实验 对 象 ; 任何 使 用 计算 机 程序 的 科学 家 或 是 工程 师 也 应 
该 能 够 预计 它 是 会 运行 一 秒 钟 还 是 一 年 。 


1.4.8， 处 理 对 于 输入 的 依赖 


对 于 许多 问题 ， 刚 才 所 提 到 的 注意 事项 中 最 突出 的 一 个 就 是 对 于 输入 的 依赖 ， 因 为 在 这 种 情况 
下 程序 的 运行 时 间 的 变化 范围 可 能 非常 大 。1.4.7.6 节 中 ThreeSum 的 修改 版 本 的 运行 时 间 的 范围 根据 
输入 的 不 同 可 能 在 常数 级 别 到 立方 级 别 之 间 ， 因 此 如 果 我 们 想 要 预测 它 的 性 能 ， 就 需要 对 它 进行 更 
加 细致 的 分 析 。 在 这 里 我 们 会 简略 讨论 一 些 有 效 的 方法 ,我 们 会 在 学 习 本 书 中 的 其 他 算法 时 用 到 它们 。 
1.4.8.1 输入 模型 

一 种 方法 是 更 加 小 心地 对 我 们 所 要 解决 的 问题 所 处 理 的 输入 建 模 。 例 如 ， 我 们 可 能 会 假设 
ThreeSum 的 所 有 输入 均 为 随机 int 值 。 使 用 这 种 方法 的 困难 主要 有 两 点 : 

口 输入 模型 可 能 是 不 切实 际 的 ; 

口 对 输入 的 分 析 可 能 极端 困难 ， 所 需 的 数学 技巧 远 非 一 般 的 学 生 或 者 程序 员 所 能 掌握 。 

其 中 前 者 更 为 重要 ， 因 为 计算 的 目的 就 是 发 现 输入 的 性 质 。 例 如 ， 如 果 我 们 编写 了 一 个 程序 来 
处 理 基因 组 ， 我 们 怎样 才能 估计 出 它 在 处 理 不 同 的 基因 组 时 的 性 能 呢 ? 描述 自然 界 中 的 基因 组 的 优 
秀 模型 正 是 科学 家 们 所 寻找 的 ， 因 此 预计 我 们 的 程序 在 处 理 自然 界 中 得 到 的 数据 时 所 需 的 运行 时 间 
实际 上 也 是 在 为 寻找 这 个 模型 做 出 贡献 ! 第 二 个 困难 只 和 最 重要 的 几 个 算法 的 数学 结果 有 关 ， 我 们 
将 会 看 到 几 个 用 简单 可 靠 的 输入 模型 加 上 经 典 的 数学 分 析 帮 助 我 们 预测 程序 性 能 的 例子 。 


.1.4.8.2 ”对 最 坏 情况 下 的 性 能 的 保证 


有 些 应 用 程序 要 求 程序 对 于 任意 输入 的 运行 时 间 均 小 于 某 个 指定 的 上 限 。 为 了 提供 这 种 性 能 保 
证 ， 理 论 研究 者 们 要 从 极度 悲观 的 角度 来 估计 算法 的 性 能 : 在 最 坏 情况 下 程序 的 运行 时 间 是 多 少 ? 
例如 ， 这 种 保守 的 做 法 对 于 运行 在 核反应 堆 、 心 脏 起 搏 器 或 者 刹车 控制 器 之 中 的 软件 可 能 是 十 分 必 
要 的 。 我 们 希望 保证 此 类 软件 能 够 在 某 个 指定 的 时 间 范 围 内 完成 任务 ， 否 则 结果 会 非常 精 糕 。 科 学 
家 们 在 研究 自然 界 时 一 般 不 会 去 考虑 最 坏 的 情况 : 在 生物 学 中 ， 最 坏 的 情况 也 许 是 人 类 的 灭绝 ;在 
物理 学 中 ， 最 坏 的 情况 也 许 是 宇宙 的 结束 。 但 是 在 计算 机 系统 中 最 坏 情况 是 非常 现实 的 忧虑 ， 因 为 
程序 的 输入 可 能 来 自 另 外 一 个 〈 可 能 是 恶意 的 ) 用 户 而 非 自然 界 。 例 如 ， 没 有 使 用 提供 性 能 保证 算 
法 的 网 站 无 法 抵御 拒绝 服务 攻击 ， 这 是 一 种 黑客 用 大 量 请 求 淹没 服务 器 的 攻击 ， 会 使 网 站 的 运行 速 
度 相 比 正常 状态 大 幅 下 降 。 因 此 ， 我 们 的 许多 算法 的 设计 已 经 考虑 了 为 性 能 提供 保证 ， 例 如 : 


操作 所 执行 的 指令 数量 均 小 于 一 个 很 小 的 常数 。 注 意 : 该 论证 依赖 于 
es 系统 能 够 在 常数 时 间 内 创建 一 个 新 的 Node 对 象 。 
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1.4.8.3 随机 化 算法 

为 性 能 提供 保证 的 一 种 重要 方法 是 引入 随机 性 -例如 ,我 们 将 在 2.3 节 中 学 习 的 快速 排序 算法 ( 可 
能 是 使 用 最 广泛 的 排序 算法 ) 在 最 坏 情况 下 的 性 能 是 平方 级 别 的 ， 但 通过 随机 打 乱 输入 ， 根 据 概率 
我 们 能 够 保证 它 的 性 能 是 线性 对 数 的 。 每 次 运行 该 算法 ， 它 所 需 的 时 间 均 不 相同 ， 但 它 的 运行 时 间 
超过 线性 对 数 级 别 的 可 能 性 小 到 可 以 忽略 。 与 此 类 似 ， 我 们 将 在 3.4 节 中 学 习 的 用 于 符号 表 的 散 列 
算法 ( 同样 也 可 能 是 使 用 最 广泛 的 同类 算法 ) 在 最 坏 情 况 下 的 性 能 是 线性 级 别 的 ， 但 根据 概率 我 们 
可 以 保证 它 的 运行 时 间 是 常数 级 别 的 。 这 些 保证 并 不 是 绝对 的 ， 但 它们 失效 的 可 能 性 甚至 小 于 你 的 
电脑 被 闪电 击 中 的 可 能 性 。 因 此 ， 这 种 保证 在 实际 中 也 可 以 用 来 作为 最 坏 情况 下 的 性 能 保证 。 
1.4.8.4 “操作 序列 

对 于 许多 应 用 来 说 ， 算 法 的 “输入 ”可 能 并 不 只 是 数据 ， 还 包括 用 例 所 进行 的 一 系列 操作 的 顺 
序 。 例 如 ， 对 于 一 个 下 压 栈 来 说 ， 用 例 先 压 人 N 个 值 然后 再 将 它们 全 部 弹出 的 所 得 到 的 性 能 ， 和 入 
次 压 人 弹出 的 混合 操作 序列 所 得 到 的 性 能 可 能 大 不 相同 。 我 们 的 分 析 要 将 这 些 情况 都 考虑 进去 (或 
者 包含 一 个 操作 序列 的 合理 模型 ) 。 
1.4.8.5 均 摊 分 析 

相应 地 ， 提 供 性 能 保证 的 另 一 种 方法 是 通过 记录 所 有 操作 的 总 成 本 并 除 以 操作 总 数 来 将 成 本 均 
扒 。 在 这 里 ， 我 们 可 以 允许 执行 一 些 昂贵 的 操作 ， 但 保持 所 有 操作 的 平均 成 本 较 低 。 这 种 类 型 分 析 
的 典型 例子 是 我 们 在 1.3 节 中 对 基于 动态 调整 数组 大 小 的 Stack 数据 结构 ( 请 见 1.3.2.5 节 的 算法 1.1 ) 
的 研究 。 简 单 起 见 ， 假 设 N 是 2 的 时。 如 果 数 据 结 构 初始 为 空 ，N 次 连续 的 push() 调用 需要 访问 
数组 元 索 多 少 次 ”计算 这 个 答案 很 简单 ， 数 组 访问 的 次 数 为 198| 


N+4+8+16+…+2N=5N_4 


其 中 , 首 项 表示 N 次 pushQ 〇 调用 ， 
其 余 的 项 表示 每 次 数组 长 度 加 倍 时 初始 
化 数据 结构 所 访问 数组 的 次 数 。 因 此 ， 
每 次 操作 访问 数组 的 平均 次 数 为 常数 ， 
但 最 后 一 次 操作 所 需 的 时 间 是 线性 的 。 
这 种 计算 被 称 为 均 捧 分 析 ， 因 为 我 们 将 0 
少量 昂贵 操作 的 成 本 通过 各 种 大 量 廉价 6 add() 操 作 的 数量 9 四 
的 操作 挫 平 了 。VisualAccumulator 


示 这 个 过 图 1.4.7 向 一 个 RandomBag 对 象 中 添加 元 素 时 的 
能 够 很 容易 地 展示 这 个 过 程 , 如 图 1.4.7 均 拓 成 本 《 另 见 彩 插 ) 














四 
3 


S 


人 成 本 (数组 引用 ) 





所 示 。 


命题 E。 在 基于 可 调整 大 小 的 数组 实现 的 Stack 数据 结构 中 ( 请 见 算法 1.1 ) ， 对 空 数 据 结构 所 
作 序列 对 数组 的 平均 访问 次 数 在 最 坏 情 况 下 均 为 常数 。 


每 次 使 数组 大 小 增加 《假设 大 小 从 N 变 为 2V) 的 pushC 操作 ， 国 ， 
卡 使 模 大 小 增长 到 上 的 最 近 NJ2-1 次 pushC) 操作 。 将 使 数组 长度 加 售 所 需 

有 push() 操作 所 需 的 NI2 次 数组 访问 《每 次 pushC 操作 均 需 访问 一 次 数组 ) 
以 得 到 每 次 操作 的 平均 成 本 为 9 次 数组 访问 。 要 证 明 长 度 为 的 任意 操作 序列 习 
和 ! 成 正比 则 更 加 揽 末 (请 见 练习 1.432) 。 Du 
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这 种 分 析 应 用 范围 很 广 ， 我 们 会 使 用 可 动态 调整 大 小 的 数组 作为 数据 结构 实现 本 书 中 的 若干 
算法 。 

算法 分 析 者 的 任务 就 是 尽 可 能 地 揭示 关于 某 个 算法 的 更 多 信息 ， 而 程序 员 的 任务 则 是 利用 这 些 
信息 开发 有 效 解决 现实 问题 的 程序 。 在 理想 状态 下， 我们 希望 根据 算法 能 够 得 到 清晰 简洁 的 代码 并 
能 够 为 我 们 感 兴趣 的 输入 提供 良好 的 保证 和 性 能 。 我 们 在 本 章 中 讨论 的 许多 经 典 算法 之 所 以 对 众多 
应 用 都 十 分 重要 就 是 因为 它们 具备 这 些 性 质 。 以 它们 作为 样板 ， 在 编程 中 遇 到 典型 问题 时 你 也 能 独 
立 给 出 很 好 的 解决 方法 。 


1.4.9 内存 

和 运行 时 间 一 样 ， 一 个 程序 对 内 存 的 使 用 也 和 物理 世界 直接 相关 : 计算 机 中 的 电路 很 大 一 部 分 
的 作用 就 是 帮助 程序 保存 一 些 值 并 在 稍 后 取出 它们 。 在 任意 时 刻 需 要 保存 的 值 越 多 ， 需 要 的 电路 也 
就 越 多 。 你 可 能 知道 计算 机 能 够 使 用 的 内 存 上 限 ( 知道 这 一 点 的 人 应 该 比 知道 运行 时 间 限 制 的 人 要 
多 ) 因为 你 很 可 能 已 经 在 内 存 上 花 了 不 少 额 外 的 支出 。 

计算 机 上 的 Java 对 内 存 的 使 用 经 过 了 精心 的 设计 ( 程序 的 每 个 值 在 每 次 运行 时 所 需 的 内 存量 都 
是 一 样 的 ) ,但 实现 了 Java 的 设备 非常 多 ， 而 内 存 的 使 用 是 和 实现 相关 的 。 简 单 起 见 ， 我 们 用 典型 
这 个 词 暗示 和 机 器 相关 的 值 。 

Java 最 重要 的 特性 之 一 就 是 它 的 内 存 分 配 系统 。 它 的 任务 是 把 你 从 对 内 存 的 操作 之 中 解脱 出 来 。 
显然 ， 你 肯定 已 经 知道 应 该 在 适当 的 时 候 利用 这 个 功能 ， 但 是 你 也 应 该 ( 至 少 是 大 概 ) 知道 程序 对 
内 存 的 需求 在 何 时 会 成 为 解决 问题 的 障碍 。 

分 析 内 存 的 使 用 比分 析 程 序 所 需 的 运行 时 间 要 简单 得 多 ， 主 要 原因 是 它 所 涉及 的 程序 语句 较 少 
(只 有 声明 语句 ) 且 在 分 析 中 我 们 会 将 复杂 的 对 象 简化 为 原始 数据 类 型 ， 而 原始 数据 类 型 的 内 存 使 
用 是 预先 定义 好 的 ， 而 且 非 常 容易 理解 : 只 需 将 变量 的 数量 和 它们 的 类 型 所 对 应 的 字 节 数 分 别 相 乘 
并 汇总 即 可 。 例 如 ,因为 Java 的 int 数据 类 型 是 -2 147 483 648 到 2 147 483 647 之 间 的 整数 值 的 集合 ， 
即 总 数 为 22 个 不 同 的 值 ， 典 型 的 Java 实现 使 用 32 位 来 表示 int 值 。 其 他 原始 数据 类 型 的 内 存 使 
用 也 是 基于 类 似 的 考虑 : 典型 的 Java 实现 使 用 8 位 表示 字 节 , 用 2 字 节 ( 16 位 ) 表示 一 个 char 值 ， 
用 4 字 节 (32 位 ) 表示 一 个 int 值 , 用 8 字 节 (64 位 ) 表示 一 个 double 或 者 1ong 值 , 用 1 字 节 
表示 一 个 boolean 值 ( 因为 计算 机 访问 内 存 的 方式 都 是 一 次 1 字 节 ) ， 见 表 1.4.10。 根 据 可 用 内 存 
的 总 量 就 能 够 计算 出 保存 这 些 值 的 极限 数量 。 例 如 ， 如 果 计 算 机 有 1 GB 内 存 (10 亿 字 节 ) ， 那 么 
同一 时 间 最 多 能 在 内 存 中 保存 3200 万 个 int 值 或 是 1600 万 个 double 值 。 

从 另 一 方面 来 说 ， 对 内 存 使 用 的 分 析 和 硬件 以 及 表 1.4.10 “原始 数据 类 型 的 常见 内 存 、 需 求 





Java 的 不 同 实现 中 的 各 种 差异 有 关 ， 因 此 我 们 举 出 的 一 a 
这 个 特定 的 例子 并 不 是 一 成 不 变 的 ， 你 应 该 以 它 为 参 i 
考 来 学 习 在 条 件 允 许 的 情况 下 如 何 分 析 内 存 的 使 用 。 坟 1 
例如 ， 许 多 数据 结果 都 涉及 对 机 器 地 址 的 表示 ， 而 在 ihar 2 
各 种 计算 机 中 一 个 机 器 地 址 所 需 的 内 存 又 各 有 不 同 。 int 4 
为 了 保持 一 致 ， 我 们 假设 表示 机 器 地 址 需要 8 字 节 ， float 4 
这 是 现在 广泛 使 用 的 64 位 构架 中 的 典型 表示 方式 ， 许 1ong 8 
多 老式 的 32 位 构架 只 使 用 4 字 节 表示 机 器 地 址 。 double s 
1.4.9.1 对 象 


要 知道 一 个 对 象 所 使 用 的 内 存量 ， 需 要 将 所 有 实例 变量 使 用 的 内 存 与 对 象 本 身 的 开销 (一般 是 
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16 字 节 ) 相 加 。 这 些 开 销 包 括 一 个 指向 对 象 的 类 的 整数 的 封装 对 象 24 字 节 
引用 、 垃 圾 收集 信息 以 及 同步 信息 。 另 外 ， 一 般 内 存 人 四 
的 使 用 都 会 被 填充 为 8 字 节 ( 64 位 计算 机 中 的 机 器 字 ) ee : 名 
的 倍数 。 例 如 , 一 个 Integer 对 象 会 使 用 24 字 节 ( 16 i int 值 








字 节 的 对 象 开销 ，4 字 节 用 于 保存 它 的 int 值 以 及 4 
个 填充 字 节 )。 类 似 地 , 一 个 Date 对 象 ( 请 见 表 1.2.12 ) De 网 32 字 节 
{ 








需要 使 用 32 字 节 :16 字 节 的 对 象 开销 ，3 个 int 实 riveve tnt tars se 
例 变量 各 需 4 字 节 ， 以 及 4 个 填充 字 节 。 对 象 的 引用 te ser 
一 般 都 是 一 个 内 存 地 址 ， 因 此 会 使 用 8 字 节 。 例 如 ， i linen 
-个 Counter 对 象 ( 请 见 表 1.2.11 ) 需 要 使 用 32 字 节 : 守 当 





16 字 节 的 对 象 开销 ，8 字 节 用 于 它 的 String 型 实例 
变量 (一 个 引用 ) ，4 字 节 用 于 int 实例 变量 ， 以及。 Cou 对象 Cnter 32 字 节 
{ 











4 个 填充 字 节 。 当 我 们 说 明 一 个 引用 所 占 的 内 存 时 ， riws Siriig nonei na 
我 们 会 单独 说 明 它 所 指向 的 对 象 所 占用 的 内 存 ， 因 此 mt sl 
这 个 内 存 使 用 总 量 并 没有 包含 String 值 所 使 用 的 内 ane | 的 51 用 

存 。 常 见 对 象 的 内 存 需求 列 在 了 图 1.4.8 中 EE 

1.4.9.2 链表 


嵌 套 的 非 静 态 ( 内 部 ) 类 ,例如 我 们 的 Node 类 (请 。 Node 对象 ( 内 部 类 )。 -人 宇和 
见 13.3.1 节 ) ， 还 需要 额外 的 8 字 节 ( 用 于 一 个 指 {rivate Iten tten; 
向 外 部 类 的 引用 ) 。 因 此 ， 一 个 Node 对 象 需 要 使 i 
用 40 字 节 (16 字 节 的 对 象 开销 ， 指 向 Item 和 Node 
对 象 的 引用 各 需 8 字 节 ， 另 外 还 有 8 字 节 的 额外 开 
销 ) 。 因 为 Integer 对 象 需要 使 用 24 字 节 ， 一 个 含 
有 个 整数 的 基于 链表 的 栈 ( 请 见 算法 1.2 ) 需要 使 
用 (32+64N ) 字 节 ， 包 括 Stack 对 象 的 16 字 节 的 开 
销 ,引用 类 型 实例 变量 8 字 节 ,int 型 实例 变量 4 字 节 ， 
4 个 填充 字 节 ， 每 个 元 素 需 要 64 字 节 ， 一 个 Node 对 象 的 40 字 节 和 一 个 Integer 对 象 的 24 字 节 。 [201 
1.4.9.3 数组 
图 1.4.9 总 结 了 Java 中 的 各 种 类 型 的 数组 对 内 存 的 典型 需求 。Java 中 数组 被 实现 为 对 象 ， 它 们 
一 般 都 会 因为 记录 长 度 而 需要 额外 的 内 存 。 一 个 原始 数据 类 型 的 数组 一 般 需要 24 字 节 的 头 信息 ( 16 
字 节 的 对 象 开销 ，4 字 节 用 于 保存 长 度 以 及 4 填充 字 节 ) 再 加 上 保存 值 所 需 的 内 存 。 例 如 ， 一 个 含 
及 个 int 值 的 数组 需要 使 用 ( 24 + 4N) 字 节 (会 被 填充 为 8 的 倍数 ) ， 一 个 含有 N 个 double 
值 的 数组 需要 使 用 ( 24 + 8N ) 字 节 。 一 个 对 象 的 教 组 就 是 一 个 对 象 的 引用 的 数组 ， 所 以 我 们 应 该 在 
对 象 所 需 的 内 存 之 外 加 上 引用 所 需 的 内 存 。 例 如 ， 一 个 含 及 个 Date 对 象 ( 请 见 表 1.2.12 ) 的 数 
组 需要 使 用 24 字 节 (数组 开销 ) 加 上 8N 字 节 ( 所 有 引用 ) 加 上 每 个 对 象 的 32 字 节 ， 总 共 (24+ 
40N ) 字 节 。 二 维 数组 是 一 个 数组 的 数组 ( 每 个 数组 都 是 一 个 对 象 ) 。 例如， 一 个 MxN 的 double 
类 型 的 二 维 数组 需要 使 用 24 字 节 ( 数组 的 数组 的 开销 ) 加 上 8M 字 节 ( 所 有 元 素数 组 的 引用 ) 加 
上 24M 字 节 ( 所 有 元 素数 组 的 开销 ) 加 上 8MN 字 节 ( M 个 长 度 为 N 的 double 类 型 的 数组 ) ， 总 
共 (8MN+32M+24 ) ~ 8MN 字 节 ; 当 数 组 元 素 是 对 象 时 计算 方法 类 似 ,结果 相同 ， 用 来 保存 充满 
指向 数组 对 象 的 引用 的 数组 以 及 所 有 这 些 对 象 本 身 。 
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next 





图 1.4.8 典型 对 象 的 内 存 需求 
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int 值 的 数组 doub1e 值 的 数组 
jnt[] a = new int[N]; double[] < = new double[N]; 
a < 一 
4 | 一 16 字 市 图 16 字 节 
开销 
int 值 于 int 值 - 寺 | 
(4 字 节 ) (4 字 节 ) 
上 -| 位 NM 个 int 值 是 可 
(4NW 字 节 ) [Ee 外 
pA 
总 计 ，24+4N BA 
(为 偶数 ) 曾 | 
总 计 :24+8N 
对 象 的 数组 32 字 节 和 全 a 


Date[] di 
dm new Date[N]; DR Smm; 
for Got ke 0 k ems hen) 

BLK] = new Date C...); 


(8N 字 节 ) 、 请 


总 计 : 24+8N+ NXx32=24+40N 








总 结 
类 型 字 节 数 
int[] -AN 
double[] ~8N 
Date[] ~40N 


double[][] ~8NM 


图 1.4.9 int 值 、double 值 、 对 象 和 数组 的 数组 对 内 存 的 典型 需求 

1.4.9.4 ”字符 串 对 象 

我 们 可 以 用 相同 的 方式 说 明 Java 的 String 类 型 对 象 所 需 的 内 存 ， 只 是 对 于 字符 串 来 说 别名 是 
非常 常见 的 。String 的 标准 实现 含有 4 个 实例 变量 : 一 个 指向 字符 数组 的 引用 (8 字 节 ) 和 三 个 
int 值 (各 4 字 节 ) 。 第 一 个 int 值 描述 的 是 字符 数组 中 的 偏 移 量 ， 第 二 个 int 值 是 一 个 计数 器 
(字符 串 的 长 度 ) 。 按 照 图 1.4.9 中 所 示 的 实例 变量 名 ， 对 象 所 表示 的 字符 串 由 value[offset] 到 
value[offset + count - 1] 中 的 字符 组 成 。String 对 象 中 的 第 三 个 int 值 是 一 个 散 列 值 ， 它 
在 某 些 情况 下 可 以 节省 一 些 计算 ， 我 们 现在 可 以 忽略 它 。 因 此 ， 每 个 String 对 象 总 共 会 使 用 40 字 
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节 (16 字 节 表 示 对 象 ， 三 个 int 实例 变量 各 需 4 字 节 ， 加 上 数组 引用 的 8 字 节 和 4 个 填充 字 节 ) 。 
这 是 除 字符 数组 之 外 字符 串 所 需 的 内 存 空 间 ， 所 有 字符 所 需 的 内 存 需要 另 记 ， 因 为 String 的 char 
数组 常常 是 在 多 个 字符 串 之 间 共 享 的 。 因 为 String 对 象 是 不 可 变 的 ， 这 种 设计 使 String 的 实现 
在 能 够 在 多 个 对 象 都 含有 相同 的 value[] 数组 时 节省 内 存 。 
1.4.9.5 “字符 串 的 值 和 子 字符 串 

一 个 长 度 为 N 的 String 对 象 一 般 需要 使 用 40 字 节 ( String 对 象 本 身 ) 加 上 (24+2N ) 字 节 ( 字 
符 数组 ) ， 总 共 ( 64+2N ) 字 节 。 但 字符 串 处 理 经 常会 和 子 字符 串 打 交道 ， 所 以 Java 对 字符 串 的 表 
示 希 望 能 够 避免 复制 字符 串 中 的 字符 。 当 你 调用 substring 0 方法 时 ， 就 创建 了 一 个 新 的 String | 
对 象 (40 字 节 ) ,但 它 仍然 重用 了 相同 的 value[] 数组 ， 因 此 该 字符 串 的 子 字符 串 只 会 使 用 40 字 
节 的 内 存 。 含 有 原始 字符 串 的 字符 数组 的 别名 存在 于 子 字符 串 中 ， 子 字符 串 对 象 的 偏 移 量 和 长 度 域 
标记 了 子 字符 串 的 位 置 。 换 句 话说， 一 个 子 字符 囊 所 需 的 额外 内 存 是 一 个 常数 ， 构 造 一 个 子 字符 事 
所 需 的 时 间 也 是 常数 ， 即 使 字符 串 和 子 字符 串 的 长 度 极 大 也 是 这 样 。 某 些 简陋 的 字符 串 表示 方法 在 














创建 子 字符 串 时 需要 复制 其 中 的 字符 ， 这 将 需要 线 。 。 String 对象 (Java 库 ) 40 字 节 
性 的 时 间 和 空间 。 确 保 子 字符 串 的 创建 所 需 的 空间 Fh od 

(以 及 时 间 ) 和 其 长 度 无 关 是 许多 基础 字符 串 处 理 vp een pe 

算法 的 效率 的 关键 所 在 。 字 符 串 的 值 与 子 字符 串 示 i 

例如 图 1.4.10 所 示 。 i 


这 些 基础 机 制 能 够 有 效 帮助 我 们 估计 大 量程 序 

对 内 存 的 使 用 情况 ， 但 许多 复杂 的 因素 仍然 会 使 这 

个 任务 变 得 更 加 困难 。 我 们 已 经 提 到 了 别名 可 能 产子 字符 串 举例 
生 的 潜在 影响 。 另 外 ， 当 涉及 函数 调用 时 ， 内 存 的 人 
消耗 就 变 成 了 一 个 复杂 的 动态 过 程 ， 因 为 Java 系统 2 
的 内 存 分 配 机 制 扮演 一 个 重要 的 角色 ， 而 这 套 机 制 
又 和 Java 的 实现 有 关 。 例 如 ， 当 你 的 程序 调用 一 个 
方法 时 ， 系 统 会 从 内 存 中 的 一 个 特定 区 域 为 方法 分 
配 所 需要 的 内 存 (用 于 保存 局 部 变量 ) ， 这 个 区 域 
叫做 栈 (Java 系统 的 下 压 栈 ) 。 当 方法 返回 时 ， 它 
所 占用 的 内 存 也 被 返回 给 了 系统 栈 。 因 此 ， 在 递归 
程序 中 创建 数组 或 是 其 他 大 型 对 象 是 很 危险 的 ， 因 
为 这 意味 着 每 一 次 递归 调用 都 会 使 用 大 量 的 内 存 。 
当 通过 new 创建 对 象 时 ， 系 统 会 从 堆 内 存 的 另 一 块 
特定 区 域 为 该 对 象 分 配 所 需 的 内 存 ( 这 里 的 堆 和 我 
们 将 在 2.4 节 学 习 的 二 叉 堆 数据 结构 不 同 ) 。 而 且 ， 
你 要 记 住所 有 对 象 都 会 一 直 存在 ， 直 到 对 它 的 引用 
消失 为 止 。 此 时 系统 的 垃圾 回收 进程 会 将 它 所 占用 
的 内 存 收回 到 堆 中 。 这 种 动态 过 程 使 准确 估计 一 个 
程序 的 内 存 使 用 变 得 极为 困难 。 图 1.4.10 一 个 String 对象 和 一 个 子 字符 串 。 |204 


1.4.10 ”展望 
良好 的 性 能 是 非常 重要 的 。 速 度 极 慢 的 程序 和 不 正确 的 程序 一 样 无 用 ， 因 此 显然 有 必要 在 一 开 
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始 就 关注 程序 的 运行 成 本 ， 这 能 够 让 你 大 致 估计 出 所 要 解决 的 问题 的 规模 ， 而 聪明 的 做 法 是 时 刻 关 
注 程序 中 的 内 循环 代码 的 组 成 。 

但 在 编程 领域 中 ， 最 常见 的 错误 或 许 就 是 过 于 关注 程序 的 性 能 。 你 的 首要 任务 应 该 是 写 出 清 
晰 正确 的 代码 。 仅 仅 为 了 提高 运行 速度 而 修改 程序 的 事 最 好 留 给 专家 们 来 做 。 事 实 上 ， 这 么 做 常常 
会 降低 生产 效率 ， 因 为 它 会 产生 复杂 而 难以 理解 的 代码 。C.A.R. Hoare ( 快速 排序 的 发 明 人 ， 也 是 
一 位 推动 编写 清晰 而 正确 的 代码 的 领军 人 物 ) 曾 将 这 种 想法 总 结 为 : “不 成 熟 的 优化 是 所 有 罪恶 之 
源 。”Knuth 为 这 句 话 加 上 了 一 个 定语 “在 编程 领域 中 ( 或 者 至 少 是 大 部 分 罪恶 ) ”。 另 外 ， 如 果 
降低 成 本 带 来 的 效益 并 不 明显 ， 那 么 对 运行 时 间 的 改进 就 不 值得 了 。 例 如 ， 如 果 一 个 程序 所 需 的 运 
行 时 间 只 是 一 瞬间 而 已 ， 那 么 即使 是 将 它 的 速度 提高 十 倍 也 是 无 关 紧 要 的 。 即 使 程序 的 运行 需要 
好 几 分 钟 ， 实 现 并 调试 一 个 新 算法 所 需要 的 时 间 也 可 能 会 大 大 超过 直接 运行 一 个 稍微 慢 一 点 的 算 
法 一 一 这 种 时 候 就 应 该 让 计算 机 代劳 。 更 糟糕 的 情况 是 你 可 能 花 了 大 量 的 时 间 和 心血 去 实现 一 个 理 
论 上 能 够 改进 程序 的 想法 ， 但 实际 上 什么 也 没 发 生 。 

在 编程 领域 中 ， 第 二 常见 的 错误 或 许 是 完全 忽略 了 程序 的 性 能 。 较 快 的 算法 一 般 都 比 暴力 算法 
更 复杂 ， 所 以 很 多 人 宁可 使 用 较 慢 的 算法 也 不 愿 应 付 复杂 的 代码 。 但 是 ， 几 行 优秀 的 代码 有 时 能 够 
给 你 带 来 巨大 的 收益 。 许 多 人 在 使 用 平方 级 别 的 暴力 算法 去 解决 问题 的 盲目 等 待 中 浪费 了 大 量 的 时 
间 ， 但 实际 上 线性 级 别 或 是 线性 对 数 级 别 的 算法 能 够 在 几 分 之 一 的 时 间 内 完成 任务 。 当 我 们 需要 处 
理 大 规模 问题 时 ， 通 常 ， 除 了 寻找 更 好 的 算法 之 外 我 们 别 无 选择 。 

我 们 将 使 用 本 节 所 述 的 各 种 方法 来 评估 算法 对 内 存 的 使 用 ， 并 在 多 个 成 本 模型 下 对 算法 进行 数 
学 分 析 从 而 得 到 相应 的 近似 函数 ， 然 后 根据 近似 函数 提出 对 算法 所 需 的 运行 时 间 的 增长 数量 级 的 猜 























想 并 通过 实验 验证 它们 。 改 进程 序 ， 使 之 更 加 清晰 、 高 效 和 优雅 应 该 是 我 们 一 贯 的 目标 。 如 果 你 在 
205| 开发 一 个 程序 的 全 过 程 中 都 能 关注 它 的 运行 成 本 ,那么 你 都 会 从 该 程序 的 每 次 执行 中 受益 。 
图 答 用 


问 为 什么 不 用 StdRandom 生成 随机 数 来 代替 1Mints.txt ? 

答 ”在 开发 中 ， 这 样 做 能 够 使 调试 代码 和 重复 实验 更 简单 。 每 次 调用 StdRandom 都 会 产生 不 同 的 值 
所 以 修正 一 个 bug 之 后 并 再 次 运行 程序 可 能 并 不 能 测试 这 次 修正 ! 可 以 使 用 StdRandom 中 的 
initialize() 方法 来 解决 这 个 问题 ， 但 1Mints.txt 类 参考 文件 能 够 使 添加 测试 用 例 变 得 更 容易 。 另 
外 ， 不同 的 程序 员 还 能 够 比较 程序 在 不 同 计算 机 上 的 性 能 而 不 必 担 心 输入 模型 的 不 同 。 只 要 你 的 程 
序 已 经 调试 完毕 且 你 已 经 大 致 了 解 了 它 的 性 能 ， 当 然 有 必要 用 随机 数据 测试 它 。 例 如 ，DoublingTest 
和 DoublingRatio 使 用 的 就 是 这 种 方式 。 

问 ”我 在 计算 机 上 运行 了 DoublingRatio， 但 我 得 到 的 结果 和 书 上 的 不 一 致 。 有 些 比例 的 收敛 值 并 不 是 8， 
为 什么 ? 

答 ”这 就 是 为 什么 我 们 在 1.4.7 节 中 讨论 了 注意 事项 。 最 可 能 的 情况 是 你 计算 机 上 的 操作 系统 在 实验 进行 
中 还 开小差 去 干 了 点 儿 别 的 活 儿 。 消 除 这 种 问题 的 一 种 方式 是 花 更 多 时 间 做 更 多 次 实验 。 比 如 ,可 
以 修改 DoublingTest， 让 它 对 于 每 个 N 都 进行 1000 次 实验 ， 这 样 对 于 每 个 它 都 能 给 出 对 运行 时 间 
更 加 精确 的 估计 值 。 

问 在 近似 函数 的 定义 中 ，“ 随 着 N 的 增 大 ”确切 的 意思 是 什么 ? 

答 AN)-g(N) 的 正式 定义 为 imw_NJg(N)=1。 

间 ”我 还 见 到 过 其 他 表示 增长 的 数量 级 的 符号 ， 它 们 都 表示 什么 意思 ? 


间 





使 用 最 广泛 的 记 法 是 “大 O”: 对 于 AN) 和 g(N)， 如果 存 在 常数 和 ,使 得 对 于 所 有 N>N。 都 有 
1.AN) | < cg(N)， 则 我 们 称 RN) 为 O(g(N))。 这 种 记 法 在 描述 算法 性 能 的 渐进 上 限时 十 分 有 用 ， 这 
在 算法 理论 领域 是 十 分 重要 的 ， 但 它 在 测算 法 性 能 或 是 比较 算法 时 并 没有 什么 作用 。 

上 题 中 , 为 什么 说 没有 作用 呢 ? 

主要 原因 是 它 描述 的 仅仅 是 运行 时 间 的 上 限 ， 而 算法 的 实际 性 能 可 能 要 好 得 多 。 一 个 算法 的 运行 时 
间 可 能 既是 O(N”) 也 是 ~aMogN 的。 因此 ， 它 不 能 解释 类 似 信 率 实验 等 测试 (请 见 1.4.6 节 命题 C) a 
人 “大 0” 符号 的 应 用 非常 广泛 呢 ? 


它 简化 了 对 增长 数量 级 的 上 限 的 研究 ， 甚至 也 适用 于 一 些 无 法 进行 精确 分 析 的 复杂 算法 另 。 
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它 还 可 以 和 计算 理论 中 用 于 将 算法 按照 它们 在 最 坏 情况 下 的 性 能 分 类 的 “大 Omega” 和 “大 入 


Theta” 符 号 一 起 使 用 : 如 果 存在 常数 ec 和 N 使 得 对 于 N>N 都 有 LN 1 > cg(N)， 则 我 们 称 AN) 
为 9(8CV)。 如果 AN) 既是 O(g(N) 也 是 Q(g(N))， 则 我 们 称 fN) 为 9(g(N))。“ 大 Omega” 记 法 通 
常用 来 表示 最 坏 情况 下 的 性 能 下 限 ; 而 “大 Theta” 记 法 则 通常 用 于 描述 算法 的 最 优 性 能 ; 即 不 存 


在 有 更 好 的 最 坏 情况 下 的 渐进 增长 数量 级 的 算法 。 算法 的 最 优 性 显然 是 实际 应 用 中 值得 考虑 的 一 EN 


但 你 会 看 到 ， 还 有 其 他 许多 因素 需要 考虑 。 
浙 进 性 能 的 上 限 难道 不 重要 吗 ? b 
重要 ， 但 我 们 希望 讨论 的 是 给 定 成 本 模型 下 所 有 语句 执行 的 准确 频率 ;， 因 为 它们 能 够 提供 更 多 关于 


“算法 性 能 的 信息 ， 而 且 从 我 们 所 讨论 的 算法 中 获取 这 些 频 率 是 可 能 的 。 例 如 ,我 们 可 以 说 “ThreeSum 


访问 数组 的 次 数 为 ~ N/2”， 以 及 “在 最 坏 情况 下 cnt++ 执行 的 次 数 为 ~ N/6”， 它们 虽然 有 些 宛 
长 但 给 出 的 信息 比 “ThreeSum 的 运行 时 间 为 O(N)” 要 多 得 多 。 


当 一 个 算法 的 运行 时 间 的 增长 数量 级 为 MogN 时 ， 根 据 双 信和 测试 会 得 到 它 的 运行 时 间 为 -aN 人 


(其 中 a 为 常数 ) 。 这 有 问题 吗 ? 


需要 注意 的 是 ， 我 们 不 能 根据 实验 数据 推测 它们 所 符合 的 某 个 特定 的 数学 模型。 但 如 果 我 们 只 是 在 


“预测 性 能 , 这 并 不 是 什么 问题 。 例如 , 当 N 在 16 000 到 32 000 之 间 时 ,14N 和 NigN 的 图 像 非常 接近 。 


这 些 数据 同时 与 两 条 曲线 吻合 。 随 着 N 的 增 大 ， 两 条 曲线 更 为 接近 。 想 要 用 实验 来 检验 一 个 算法 的 
运行 时 间 是 线性 对 数 级 别 而 非 线性 级 别 是 要 费 一 番 工 夫 的 。 

int[] a = :new int[N] 表示 NN 次 数组 访问 吗 ( 所 有 数组 元 素 均 会 被 初始 化 为 0) ? 

大 多 数 情况 下 是 的 ， 我 们 在 本 书 中 也 是 这 样 假设 的 ， 不 过 复杂 编译 器 的 实现 会 在 过 到 大 型 稀 玖 数组 
时 尽力 避免 这 种 开销 。 


-i 


1.4.1 “证明 从 个 数 中 取 三 个 整数 的 不 同 组 合 的 总 数 为 MN - 1XN - 2) /6。 提 示 : 使 用 数学 归纳 法 。 
1.4.2 修改 ThreeSum， 正 确 处 理 两 个 较 大 的 int 值 相 加 可 能 溢出 的 情况 。 
1.4.3 .修改 DoublingTest， 使 用 StdDraw 产生 类 似 于 正文 中 的 标准 图 像 和 对 数 图 像 ， 根据 需要 调整 比例 


“使 图 像 总 能 够 充满 窗口 的 大 部 分 区 域 。 


1.44 . 参照 表 1.4.4 为 TwoSum 建立 一 开张 类 似 的 表格 。 
1.4.5 给 出 下 而 这些 量 的 近似 ; 


aNtl 
b.1+UN 
©. (1+WNNI+2/N) 
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dL2N-1SNHN 
e lg(2NMIgN 
人 lg(MN+HIJMIgN 
BN 
1.4.6 给 出 以 下 代码 段 的 运行 时 间 的 增长 数量 级 (作为 N 的 函数 ) : 
aint sum = 0; 
for (int n=N;n>0;n/=2) 
forCint 1 = 0; i <n; iH) 
SUm++; 
b.int sum = 0; 
for (int i = 1; 1 <N; ia = 
for (int j = 0; j < i; j++) 
Sum++;. 
cint sum =.0; 党 
for (int 1 = 1; 1 <N; 1 
for (int j = 0; j <N; j++j: 
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SumM++; 


1.4.7 ”以 统计 涉及 输入 数字 的 算术 操作 ( 和 比较 ) 的 成 本 模型 分 析 ThreeSum。 
1.4.8 编写 一 个 程序 ， 计 算 输 人 文件 中 相等 的 整数 对 的 数量 。 如 果 你 的 第 一 个 程序 是 平方 级 别 的 ， 请 继 
续 思考 并 用 Array .sortQ 给 出 一 个 线性 对 数 级 别 的 解答 。 
1.4.9 已 知 由 倍率 实验 可 得 某 个 程序 的 时 间 倍 率 为 2 且 问 题 规模 为 Ne 时 程序 的 运行 时 间 为 7， 给 出 一 
个 公式 预测 该 程序 在 处 理 规模 为 的 问题 时 所 需 的 运行 时 间 。 
1.4.10 ”修改 二 分 查找 算法 ， 使 之 总 是 返回 和 被 查找 的 键 匹 配 的 索引 最 小 的 元 素 ( 且 仍 然 能 够 保证 对 数 
级 别 的 运行 时 间 ) 。 
1.4.11 为 StaticSETofInts (请 见 表 1.2.15 ) 这 加 一 一 个 实例 方法 howManyC)， 找 出 给 定 键 的 出 现 次 数 
且 在 最 坏 情况 下 所 需 的 运行 时 间 和 logN 成 正比 。 
1.4.12 “编写 一 个 程序 ， 有 序 打印 给 定 的 两 个 有 序数 组 (含有 N 个 int 值 ) 中 的 所 有 公共 元 素 ， 程 序 在 
最 坏 情况 下 所 和 需 的 运行 时 间 应 该 和 成 正比 。 | 
1.4.13 ”根据 正文 中 的 假设 分 别 给 出 表示 以 下 数据 类 型 的 一 个 对 象 所 需 的 内 存量 : 
a. Accumulator b 
b. Transaction 
c. FixedCapacityStackOfStrings， 其 容量 为 C 且 含 及 个 元 素 
d Point2D 
e.IntervallD 
f.Interval2D 
[209] g. Double 

















1.4.14 4-sum。 为 4-sum 设计 一 个 算法 。 


1.4.15 


1.4.16 


1.4.17 


1.4.18 


1.4.19 


1.4.23 


1.4.24 


1.4.25 


1.4.26 
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快速 3-sum。 作 为 热身 ,使 用 一 个 线性 级 别 的 算法 ( 而 非 基 于 二 分 查找 的 线性 对 数 级 别 的 算法 ) 
实现 TwoSumFaster 来 计算 已 排序 的 数组 中 和 为 0 的 整数 对 的 数量 。 用 相同 的 思想 为 3-sum 问题 
给 出 一 个 平方 级 别 的 算法 。 

最 接近 的 一 对 ( 一 维 ) 。 编 写 一 个 程序 ， 给 定 一 个 含有 N 个 double 值 的 数组 a[] ， 在 其 中 找到 
一 对 最 接近 的 值 : 两 者 之 差 (绝对 值 ) 最 小 的 两 个 数 。 程 序 在 最 坏 情 况 下 所 需 的 运行 时 间 应 该 
是 线性 对 数 级 别 的 。 

最 适 远 的 一 对 (一 维 ) 。 编 写 一 个 程序 ， 给 定 一 个 含有 N 个 double 值 的 数组 a[] ， 在 其 中 找到 
一 对 最 这 远 的 值 : 两 者 之 差 ( 绝对 值 ) 最 大 的 两 个 数 。 程 序 在 最 坏 情况 下 所 需 的 运行 时 间 应 该 
是 线性 级 别 的 。 

数组 的 局 部 最 小 元 素 。 编 写 一 个 程序 ， 给 定 一 个 含有 N 个 不 同 整数 的 数组 ， 找 到 一 个 局 部 最 
小 元 素 : 满足 a[i]<a[i - 1] ， 且 a[i]<a[i+1] 的 索引 i。 程 序 在 最 坏 情况 下 所 需 的 比较 次 数 
为 ~ 2lgN。 

答 : 检查 数组 的 中 间 值 a[N/2] 以 及 和 它 相 邻 的 元 素 a[N/2-1] 和 a[N/2+1]。 如 果 a[N/2] 是 一 
个 局 部 最 小 值 则 算法 终止 ， 否则 则 在 较 小 的 相 邻 元 素 的 半边 中 继续 查找 。 

矩阵 的 局 部 最 小 元 素 。 给 定 一 个 含有 NV 个 不 同 整数 的 Nx 数组 a[] 。 设 计 一 个 运行 时 间 和 入 
成 正比 的 算法 来 找 出 一 个 局 部 最 小 元 素 : 满足 a[i][j]<a[i+l] [j]、a[i][j]<a[i][j+1] 、 
a[i] [jj<a[i-1][j] 以 及 a[i][j]<a[i] [j-1] 的 索引 i 和 j。 程 序 的 运行 时 间 在 最 坏 情况 下 应 
该 和 入 成 正比 。 

双 调 查找 。 如 果 一 个 数组 中 的 所 有 元 素 是 先 递增 后 递减 的 ， 则 称 这 个 数组 为 双 调 的 。 编 写 一 个 
程序 ， 给 定 一 个 含有 N 个 不 同 int 值 的 双 调 数组 ， 判 断 它 是 否 含有 给 定 的 整数 。 程 序 在 最 坏 情 
况 下 所 需 的 比较 次 数 为 ~ 3lgN。 

无 重复 值 之 中 的 二 分 查找 。 用 二 分 查找 实现 StaticSETofInts (请 见 表 12.15 ) ,保证 contains() 
的 运行 时 间 为 ~lgR， 其 中 R 为 参数 数组 中 不 同 整数 的 数量 。 

仅 用 加 减 实现 的 二 分 查找 ( Mihai Patrascu ) 。 编 写 一 个 程序 ， 给 定 一 个 含有 入 个 不 同 int 值 的 
按照 升序 排列 的 数组 ， 判 断 它 是 否 含有 给 定 的 整数 。 只 能 使 用 加 法 和 减法 以 及 常数 的 额外 内 存 
空间 。 程 序 的 运行 时 间 在 最 坏 情况 下 应 该 和 logN 成 正比 。 

答 用 斐 波 纳 契 数 代替 2 的 寡 ( 二 分 法 ) 进 行 查找 。 用 两 个 变量 保存 和 Fi 并 在 [i, i+F] 之 间 查 找 。 
在 每 一 步 中 ,使 用 减法 计算 F.,， 检 查 i+F 处 的 元 素 ， 并 根据 结果 将 搜索 范围 变 为 [i, i+Fs] 或 
是 [itFhs, itFiztFr]e 

分 数 的 二 分 查找 。 设 计 一 个 算法 ， 使 用 对 数 级 别 的 比较 次 数 找 出 有 理 数 mg， 其 中 0<p<g<N， 比 
较 形式 为 给 定 的 数 是 否 小 于 x? 提示 : 两 个 分 母 均 小 于 N 的 有 理 数 之 差 不 小 于 UN 。 

扔 鸡蛋 。 假 设 你 面前 有 一 栋 N 层 的 大 楼 和 许多 鸡蛋 ， 假 设 将 鸡蛋 从 严 层 或 者 更 高 的 地 方 扔 下 鸡 
蛋 才 会 摔 碎 ， 否 则 则 不 会 。 首 先 ， 设计 一 种 策略 来 确定 下 的 值 ， 其 中 扔 ~lgN 次 鸡蛋 后 摔 碎 的 鸡 
蛋 数量 为 ~igN， 然 后 想 办 法 将 成 本 降低 到 ~2lgF。 

扔 两 个 鸡蛋 。 和 上 一 题 相同 的 问题 ， 但 现在 假设 你 只 有 两 个 鸡蛋 ， 而 你 的 成 本 模型 则 是 扔 鸡蛋 
的 次 数 。 设 计 一 种 策略 ， 最 多 扔 2JN 次 鸡蛋 即 可 判断 出 的 值 ， 然 后 想 办 法 把 这 个 成 本 降低 到 
~cYF 次 。 这 和 查找 命中 ( 鸡蛋 完好 无 损 ) 比 未 命中 ( 鸡蛋 被 摔 碎 ) 的 成 本 小 得 多 的 情形 类 似 。 
三 点 共 线 。 假 设 有 一 个 算法 ,接受 平面 上 的 N 个 点 并 能 够 返回 在 同一 条 直线 上 的 三 个 点 的 组 数 。 
证 明 你 能 够 用 这 个 算法 解决 3-sum 问题 。 强 烈 提 示 : 使 用 代数 证 明 当 且 仅 当 afb+c=0 时 (a, a)、 
(b,b 和 (c, cy) 在 同一 条 直线 上 。 
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1.4.27 两 个 栈 实现 的 队列 。 用 两 个 栈 实现 一 个 队列 ， 使 得 每 个 队列 操作 所 需 的 堆栈 操作 均 排 后 为 一 个 
常数 。 提 示 : 如 果 将 所 有 元 素 压 人 栈 再 弹出 ， 它 们 的 顺序 就 被 颠倒 了 7。 如 果 再 次 重复 这 个 过 程 ， 
它们 的 顺序 则 会 复原 。 

1.4.28 ”一 个 队列 实现 的 栈 。 使 用 一 个 队列 实现 一 个 栈 , 使 得 每 个 栈 操作 所 需 的 队列 操作 数量 为 线性 级 别 。 
提示 : 要 删除 一 个 元 素 ， 将 队列 中 的 所 有 元 素 一 一 出 列 再 入 列 ， 除 了 最 后 一 个 元 素 ， 应 该 将 它 
删除 并 返回 ( 这 种 方法 的 确 非 常 低 效 ) 。 

1.4.29 两 个 栈 实现 的 steque。 用 两 个 栈 实现 一 个 steque ( 请 见 练习 1.3.32 ) ， 使 得 每 个 steque 操作 所 需 
的 栈 操 均 摊 后 为 一 个 常数 。 

1.4.30 一 个 栈 和 一 个 steque 实现 的 双向 队列 。 使 用 一 个 栈 和 steque 实现 一 个 双向 队列 ( 请 见 练习 1.3.32 ) ， 
使 得 双向 队列 的 每 个 操作 所 需 的 栈 和 steque 操作 均 排 后 为 一 个 常数 。 

1.4.31 三 个 栈 实现 的 双向 队列 。 使 用 三 个 栈 实现 一 个 双向 队列 ， 使 得 双向 队列 的 每 个 操作 所 需 的 栈 操 
作 均 摊 后 为 一 个 常数 。 

1.4.32 均 掉 分 析 。 请 证 明 , 对 一 个 基于 大 小 可 变 的 数组 实现 的 空 栈 的 M 次 操作 访问 数组 的 次 数 和 MM 成 正比 。 

1.4.33 32 位 计算 机 中 的 内 存 需求 。 给 出 32 位 计算 机 中 Integer、Date、Counter、int[] 、double[] 、 
double[] [] 、String、Node 和 Stack (链表 表示 ) 对 象 所 需 的 内 存 ， 设 引用 需要 4 字 节 ， 表 示 
对 象 开销 为 8 字 节 ， 所 需 内 存 均 会 被 填充 为 4 字 节 的 倍数 。 

1.4.34 ” 热 还 是 冷 。 你 的 目标 是 猜 出 1 到 入 之 间 的 一 个 秘密 的 整数 。 每 次 猜 完 一 个 整数 后 ， 你 会 知道 你 的 
猜测 和 这 个 秘密 整数 是 否 相等 (如果 是 则 游戏 结束 ) 。 如 果 不 相等 ， 你 会 知道 你 的 猜测 相 比 上 一 
次 猜测 距离 该 秘密 整数 是 比较 热 (接近 ) 还 是 比较 冷 (远离 ) 。 设 计 一 个 算法 在 -2lgN 之 内 找到 
这 个 秘密 整数 ， 然 后 再 设计 一 个 算法 在 ~llgN 之 内 找到 这 个 秘密 整数 。 

1.4.35 下 压 栈 的 时 间 成 本 。 解 释 下 表 中 的 数据 ， 它 显示 了 各 种 下 压 栈 的 实现 的 一 般 时 间 成 本 ， 其 中 成 
本 模型 会 同时 记录 数据 引用 的 数量 ( 指向 被 压 人 栈 之 中 的 数据 的 引用 ， 指 向 的 可 能 是 数组 ， 也 
可 能 是 某 个 对 象 的 实例 变量 ) 和 被 创建 的 对 象 数量 。 


下 压 栈 〈 的 各 种 实现 ) 的 时 间 成 本 
压 入 N 个 int 值 的 成 本 








区 ie 数据 的 引用 创建 的 对 象 
int 2N N 
车 了 代表 Integer 3N 2N 
i ~ J 
基于 大 小 可 变 的 数组 I wy 


Integer -5N + 


1.4.36 下 压 栈 的 空间 成 本 。 解 释 下 表 中 的 数据 ， 它 显示 了 各 种 下 压 栈 的 实现 的 一 般 空间 成 本 ， 其 中 链 
表 的 节点 为 一 个 静态 的 嵌 套 类 ， 从 而 避免 非 静态 嵌 套 类 的 开销 。 


下 压 栈 〈 的 各 种 实现 ) 的 空间 成 本 





数据 结构 元 素 类 型 N 个 int 值 所 需 的 空间 〔 字 节 ) 
基于 估 表 int ~32N 
Integer ~56N 
基于 大 小 可 变 的 数组 int ~4N 到 ~ 16N 之 间 


Integer ~32N 到 ~ 56N 之 间 


图 实验 至 ni 


1.4.38 


1.4.39 


1.4.40 


1.4.41 


1.4.42 


1.4.43 


1.4.44 


1.4.45 
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自动 装 箱 的 性 能 代价 。 通 过 实验 在 你 的 计算 机 上 计算 使 用 自动 装 箱 和 自动 拆 箱 所 付出 的 性 能 代 
价 。 实 现 一 个 FixedCapacityStackOfInts， 并 使 用 类 似 DoublingRatio 的 用 例 比较 它 和 泛 型 
FixedCapacityStack<Integer> 在 进行 大 量 push() 和 pop() 操作 时 的 性 能 。 
3-sum 的 初级 算法 的 实现 。 通 过 实验 评估 以 下 ThreeSum 内 循环 的 实现 性 能 : 
for (int 1 = 0; 1 < N; i++) 
.for (int j = 0; j < Ni j++) 
for (Cint k = 0; k < Ni k++) 
if (i<j&&ji<k) 
if (a[i] + a[j] + a[k] == 0) 
nt 
为 此 实现 另 一 个 版 本 的 DoublingTest， 计 算 该 程序 和 ThreeSum 的 运行 时 间 的 比例 。 
改进 倍率 测试 的 精度 。 修 改 DoublingRatio， 使 它 接 受 另 一 个 命令 行 参数 来 指定 对 于 每 个 N 值 调 
用 timeTrial0) 方法 的 次 数 。 用 程序 对 每 个 N 执 行 10、100 和 1000 遍 实验 并 评估 结果 的 准确 程度 。 
随机 输入 下 的 3-sum 问题 。 猜 测 找 出 个 随机 int 值 中 和 为 0 的 整数 三 元 组 的 数量 所 需 的 时 间 
并 验证 你 的 猜想 。 如 果 你 擅长 数学 分 析 ， 请 为 此 问题 给 出 一 个 合适 的 数学 模型 ， 其 中 所 有 值 均 
匀 地 分 布 在 -M 到 M 之 间 ， 且 M 不 能 是 一 个 小 整数 。 
运行 时 间 。 使 用 DoublingRatio 估计 在 你 的 计算 机 上 用 TwoSumFast、TwoSum 、ThreeSumFast 以 
及 ThreeSum 处 理 一 个 含有 100 万 个 整数 的 文件 所 需 的 时 间 。 
问题 规模 。 设 在 你 的 计算 机 上 用 TwoSumFast、TwoSum 、ThreeSumFast 以 及 ThreeSum 能 够 处 理 
的 问题 的 规模 为 2x10’ 个 整数 。 使 用 Doub lingRatio 估计 P 的 最 大 值 。 
大 小 可 变 的 数组 与 链表 。 通 过 实验 验证 对 于 栈 来 说 基于 大 小 可 变 的 数组 的 实现 快 于 基于 链表 的 
实现 的 猜想 ( 请 见 练习 1.4.35 和 练习 1.4.36 ) 。 为 此 实现 另 一 个 版 本 的 DoublingRatio， 计 算 两 
个 程序 的 运行 时 间 的 比例 。 
生日 问题 。 编 写 一 个 程序 ， 从 命令 行 接受 一 个 整数 N 作为 参数 并 使 用 StdRandom.uniform() 生 
成 一 系列 0 到 N-1 之 间 的 随机 整数 。 通 过 实验 验证 产生 第 一 个 重复 的 随机 数 之 前 生成 的 整数 数 
量 为 ~ VnN/2。 
优惠 券 收集 问题 。 用 和 上 一 题 相同 的 方式 生成 随机 整数 。 通 过 实验 验证 生成 所 有 可 能 的 整数 值 
所 需 生成 的 随机 数 总 量 为 ~NHw。 
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a 首先 我 们 详细 地 说 明 一 下 问题 :问题 的 输入 是 一 列 整 数 
对 ， 其 中 每 个 整数 都 表示 一 个 某 种 类 型 的 对 象 ， 一 对 整数 p 


“一 种 对 等 的 关系 ; 这 也 就 意味 着 它 具有 : - 


1.5 “案例 研究 : union-find 算法 


为 了 说 明 我 们 设计 和 分 析 算法 的 基本 方法 ， 我 们 现在 来 学 习 一 个 具体 的 例子 。 我 们 的 目的 是 强 
调 以 下 几 点 : 

口 优秀 的 算法 因为 能 够 解决 实际 问题 而 变 得 更 为 重要 ; 

口 高 效 算法 的 代码 也 可 以 很 简单 ; 

口 理解 某 个 实现 的 性 能 特点 是 一 项 有 趣 而 令 人 满足 的 挑 成 ; 

口 在 解决 同一 个 问题 的 多 种 算法 之 间 进 行 选择 时 ， 科 学 方法 是 一 种 重要 的 工具 ; 

口 选 代 式 改进 能 够 让 算法 的 效率 越 来 越 高 。 

我 们 会 在 本 书 中 不 断 珊 固 这 些 主题 思想 。 本 节 中 的 例子 是 一 个 原型 ， 它 将 会 为 我 们 用 相同 的 方 
法 解决 许多 其 他 问题 打下 坚实 的 基础 。 

我 们 将 要 讨论 的 问题 并 非 无 足 轻重 ， 它 是 一 个 非常 基础 的 计算 性 问题 ， 而 我 们 开发 的 解决 方案 
将 会 用 于 多 种 实际 应 用 之 中 ， 从 物理 化 学 中 的 渗流 到 通信 网 络 中 的 连通 性 等 。 我 们 首先 会 给 出 一 个 
简单 的 方案 ， 然 后 对 它 的 性 能 进行 研究 并 由 此 得 出 应 该 如 何 继续 改进 我 们 的 算法 。 7 


1.5.1 动态 连通 性 一 


9 可 以 被 理解 为 “p 和 9q 是 相连 的 ”。 我 们 假设 “相连 ”是 


口 自 反 性 : p 和 p 是 相连 的 ; 

口 对 称 性 , 如 果 p 和 q 是 相连 的 ,那么 q 和 p 也 是 相连 的 

口 传递 性 : 如 果 p 和 9 是 相连 的 且 9 和 "r 是 相连 的 ， 

那么 p 和 r 也 是 相连 的 。 

对 等 关系 能 够 将 对 象 分 为 多 个 等 价 类 。 在 这 里 ， 当 上 且 仅 
当 两 个 对 象 相连 时 它们 才 属于 同一 个 等 价 类 。 我 们 的 目标 是 
编写 一 个 程序 来 过 滤 掉 序列 中 所 有 无 意义 的 整数 对 ( 两 个 整 
数 均 来 自 于 同一 个 等 价 类 中 ) 。 换 句 话说 ， 当 程序 从 输入 中 


读 取 了 整数 对 p 9 时 ， 如 果 已 知 的 所 有 整数 对 都 不 能 说 明 p i 





出 已 知 相 
和 9 是 相连 的 ， 那 么 则 将 这 一 对 整数 写 人 到 输出 中 。 如 果 已 全 连 的 整数 对 
. 知 的 数据 可 以 说 明 p 和 9 是 相连 的 ， 那 么 程序 应 该 忽略 p q 
这 对 整数 并 继续 处 理 输入 中 的 下 一 对 整数 。 图 1.5.1 用 一 个 I 冲 区 ; 
例子 说 明了 这 个 过 程 。 为 了 达到 所 期 望 的 效果 ， 我 们 需要 设 
计 一 个 数据 结构 来 保存 程序 已 知 的 所 有 整数 对 的 足够 多 的 信 9 [| 


息 ， 并 用 它们 来 判断 一 对 新 对 象 是 否 是 相连 的 。 我 们 将 这 个 。 3 个 过 通 全 
问题 通俗 地 叫做 动态 连通 性 问题 ,这 个 问题 可 能 有 以 下 应 用 。 
1.5.1.1 网 络 ; 图 15.1 动态 连通 性 问题 ( 另 见 彩 插 ) 


、 输入 中 的 整数 表示 的 可 能 是 一 个 大 型 计算 机 网 络 中 的 计算 机 ， 而 整数 对 则 表示 网 络 中 的 连接 。 


这 个 程序 能 够 判定 我 们 是 否 需要 在 p 和 q 之 间架 设 一 条 新 的 连接 才能 进行 通信 ， 或 是 我 们 可 以 通过 


已 有 的 连接 在 两 者 之 间 建立 通信 线路 ; 或 者 这 些 整数 表示 的 可 能 是 电子 电路 中 的 触 点 ， 而 整数 对 表 
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示 的 是 连接 触 点 之 间 的 电路 ; 或 者 这 些 整数 表示 的 可 能 是 社交 网 络 中 的 人 ， 而 整数 对 表示 的 是 朋友 
关系 。 在 此 类 应 用 中 ， 我 们 可 能 需要 处 理 数 百 万 的 对 象 和 数 十 亿 的 连接 。 
1.5.1.2 ”变量 名 等 价 性 

某 些 编程 环境 允许 声明 两 个 等 价 的 变量 名 ( 指向 同一 个 对 象 的 多 个 引用 ) 。 在 一 系列 这 样 的 声 
明之 后 ,系统 需要 能 够 判别 两 个 给 定 的 变量 名 是 否 等 价 。 这 种 较 早出 现 的 应 用 ( 如 FORTRAN 语言 ) 
推动 了 我 们 即将 讨论 的 算法 的 发 展 。 
1.5.1.3 ”数学 集合 

在 更 高 的 抽象 层次 上 ， 可 以 将 输入 的 所 有 整数 看 做 属于 不 同 的 数学 集合 。 在 处 理 一 个 整数 对 p 
9 时 ,我 们 是 在 判断 它们 是 否 属于 相同 的 集合 。 如 果 不 是 ， 我 们 会 将 p 所 属 的 集合 和 q 所 属 的 集合 
归并 ， 最终 所 有 的 整数 属于 同一 个 集合 。 

为 了 进一步 限定 话题 ， 我 们 会 在 本 节 以 下 内 容 中 使 用 网 络 方面 的 术语 ， 将 对 象 称 为 触 点 ， 将 束 
数 对 称 为 连接 ,将 等 价 类 称 为 连通 分 量 或 是 简称 分 量 。 简 单 起 见 ， 假 设 我 们 有 用 0 到 N-1 的 整数 所 
表示 的 N 个 触 点 。 这 样 做 并 不 会 降低 算法 的 通用 性 ,因为 我 们 在 第 3 章 中 将 会 学 习 一 组 高 效 的 算法 
将 整数 标识 符 和 任意 名 称 关联 起 来 。 


图 1.5.2 是 一 个 较 大 的 例子 ， 意 在 说 明 连 通 性 问题 的 难度 。 你 很 快 就 可 以 找到 图 左 侧 中 部 -- 个 ”: 


只 含有 一 个 触 点 的 分 量 ， 以 及 左下 方 一 个 含有 5 个 触 点 的 分 量 ， 但 让 你 验证 其 他 所 有 触 点 是 否 都 是 
相互 连通 的 可 能 就 有 些 困难 了 。 对 于 程序 来 说 ， 这 个 任务 更 加 困难 ， 因 为 它 所 处 理 的 只 有 触 点 的 名 
字 和 连接 而 并 不 知道 触 点 在 图 像 中 的 几何 位 置 。 我 们 如 何 才能 快速 知道 这 种 网 络 中 任意 给 定 的 两 个 
触 点 是 否 相连 呢 ? 





. .图 1.5.2。 中 等 规模 的 连通 性 问题 举例 (625 个 触 点 ，900 条 边 ，3 个 连通 分 量 ) 
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我 们 在 设计 算法 时 面 对 的 第 一 个 任务 就 是 精确 地 定义 问题 。 我 们 希望 算法 解决 的 问题 越 大 ， 
它 完成 任务 所 需 的 时 间 和 空间 可 能 就 越 多 。 我 们 不 可 能 预先 知道 这 其 间 的 量化 关系 ， 而 且 我 们 通 
常 只 会 在 发 现 解 决 问题 很 困难 ， 或 是 代价 巨大 ， 或 是 在 幸运 地 发 现 算法 所 提供 的 信息 比 原 问 题 所 
需要 的 更 加 有 用 时 修改 问题 。 例 如 ， 连 通 性 问题 只 要 求 我 们 的 程序 能 够 判别 给 定 的 整数 对 p q 是 
否 相连 ， 但 并 没有 要 求 给 出 两 者 之 间 的 通路 上 的 所 有 连接 。 这 样 的 要 求 会 使 问题 更 加 困难 ， 并 得 
到 另 一 组 不 同 的 算法 ， 我 们 会 在 4.1 节 中 学 习 它 们 。 

为 了 说 明 问 题 ， 我 们 设计 了 一 份 API 来 封装 所 需 的 基本 操作 : 初始 化 、 连 接 两 个 触 点 、 判 断 
包含 某 个 触 点 的 分 量 、 判 断 两 个 触 点 是 否 存在 于 同一 个 分 量 之 中 以 及 返回 所 有 分 量 的 数量 。 详 细 的 
API 如 表 1.5.1 所 示 : 


表 1.5.1 ”union-find 算法 的 API 
dt oc iti sd rss ico ek 


public class UF 





UFCint N) 和 以 整数 标识 (0 到 N-1 ) 初始 化 入 个 触 点 
void union(int p, int q) 在 p 和 9 之 间 添 加 -条 连接 
int. findCint p) — p 所 在 的 分 量 的 标识 符 (0 到 N-1 ) 
boolean connected(Cint p, int q) 如 果 p 和 9q 存在 于 同一 个 分 量 中 则 返回 true 
int count() ” 连通 分 最 的 数量 


如 果 两 个 触 点 在 不 同 的 分 量 中 ，unionO 操作 会 将 两 个 分 量 归并 。 findQ 操作 会 返回 给 定 


触 点 所 在 的 连通 分 量 的 标识 符 。connected() 操作 能 够 判断 两 个 触 点 是 否 存在 于 同一 个 分 量 之 “ 


中 。count() 方法 会 返回 所 有 连通 分 量 的 数量 。 一 开始 我 们 有 入 个 分 量 ， 将 两 个 分 量 归并 的 每 次 
union() 操作 都 会 使 分 量 总 数 减 一 。 

我 们 马上 就 将 看 到 ， 国人 API。 所 有 的 实 
现 都 应 该 : 

口 定义 一 种 数据 结构 表示 已 知 的 连接 ; 

口 基于 此 数据 结构 实现 高 效 的 union() 、find() 、connected() 和 count() 方法 。 

众所周知 ， 数 据 结构 的 性 质 将 直接 影响 到 算法 的 效率 ， 因 此 数据 结构 和 算法 的 设计 是 紧密 相关 


的 。 API 已 经 说 明 触 点 和 分 量 都 会 用 int 值 表示 ， 所 以 我 们 可 以 用 一 个 以 触 点 为 索引 的 数组 id[] 
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作为 基本 数据 结构 来 表示 所 有 分 量 。 我 们 将 使 用 分 量 中 的 某 个 触 点 的 名 称 作为 分 量 的 标识 符 ， 因 此 
你 可 以 认为 每 个 分 量 都 是 由 它 的 触 点 之 一 所 表示 的 。 一 开始 ,我 们 有 N 个 分 量 ， 每 个 触 点 都 构成 了 
一 个 只 含有 它 自己 的 分 量 ， 因 此 我 们 将 id[i] 的 值 初始 化 为 1， 其 中 站 在 0 到 N-1 之 间 。 对 于 每 个 
触 点 1， 我 们 将 find() 方法 用 来 判定 它 所 在 的 分 量 所 需 的 信息 保存 在 id[i] 之 中 。connected() 
方法 的 实现 只 用 一 条 语句 findCp) == find(q)， 它 运 回 一 个 布尔 值 ， 我 们 在 所 有 方法 的 实现 中 都 
会 用 到 connected() 方法 。 

总 之 ; 我 们 的 起 点 就 是 算法 1.5。 我 们 维护 了 两 个 实例 变量 ， 一 个 是 连通 分 量 的 个 数 ， 一 个 是 


数组 id[] 。find() 和 union() 的 实现 是 本 节 剩 余 内 容 将 要 讨论 的 主题 。 


算法 1.5 “union-find 的 实现 


public class UF 
{ 





private int[] id; VV 分 醒 id (以 触 点 作为 索引 ) 
private int count; // 分 量 数 量 
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public UFCint N) 
{ // 初始 化 分 量 id 数组 
count = N; 
id = new int[N]; 
for Cint 1 = 0; 1 < Ni i++) 
id[i] = 





} 

public int count() 

{ return count; } 

public boolean connectedCint p, int q) 
{ return find(p) == find(q); } 
public int findCint p) 

public void union(int p, int q) 


// 请 见 1.5.21 节 用 例 (quick-find) 、1.523 节 用 例 (quick-union ) 和 算法 1.5 ( 加权 quick-union ) 


public static void main(String[] args) 
{ // 解决 由 StdIn 得 到 的 动态 连通 性 问题 
int N = StdIn. readInt(); 
UF uf = new UF(N); 
while (!StdIn.isEmptyO)) 
{ 
int p = StdIn. readInt(); 


int q = StdIn.readInt(); // 读 取 整数 对 


// 读 取 触 点 数量 
// 初始 化 N 个 分 量 


if (uf.connected(p，9)) continue; // 如 果 已 经 连通 则 忽略 


// 归并 分 量 
// 打印 连接 


uf.union(p, q); 
StdOut.printIn(p + " " + q); 


StdOut.printin(uf.count() + "components"); 
} 
} 


这 份 代码 是 我 们 对 UF 的 实现 。 它 维护 了 一 个 整 型 数组 id[] ， 使 得 findC 对 于 处 在 同一 个 连通 分 


量 中 的 触 点 均 返 回 相同 的 整数 值 。union() 方法 必须 保证 这 一 点 。 





为 了 测试 API 的 可 用 性 并 方便 开发 ,我 们 在 mainQ 方法 中 
包含 了 一 个 用 例 用 于 解决 动态 连通 性 问题 。 它 会 从 输入 中 读 取 N 
值 以 及 一 系列 整数 对 ， 并 对 每 一 对 整数 调用 findQ 方法 : 如 果 
某 一 对 整数 中 的 两 个 触 点 已 经 连通 ,程序 会 继续 处 理 下 一 对 数据 ; 
如 果 不 连通 ， 程 序 会 调用 union 方法 并 打印 这 对 整数 。 在 讨论 
实现 之 前 ， 我 们 也 准备 了 一 些 测试 数据 ( 如 右 侧 的 代码 框 所 示 ) : 
文件 tinyUF.txt 含 有 10 个 触 点 和 11 条 连接 ,图 1.5.1 使 用 的 就 是 它 ; 
文件 mediumUF.txt 含 有 625 个 触 点 和 900 条 连接 , 如 图 1.5.2 所 示 ; 
例子 文件 largeUF.txt 含有 100 万 个 触 点 和 200 万 条 连接 。 我 们 的 
目标 是 在 可 以 接受 的 时 间 范 处 理 和 largeUF.txt 规模 类 似 的 
输入 。 

为 了 分 析 算法 ,我 们 将 重点 放 在 不 同 算法 访问 任意 数组 元 素 
的 总 次 数 上 。 我 们 这 样 做 相当 于 隐 式 地 猜测 各 种 算法 在 一 台 特定 
的 计算 机 上 的 运行 时 间 在 这 个 量 乘 以 某 个 常数 的 范围 之 内 。 这 个 
猜想 基于 代码 ， 用 实验 验证 它 并 不 困难 。 我 们 将 会 看 到 ， 这 个 猜 
想 是 算法 比较 的 一 个 很 好 的 开始 。 





more tinyUF.txt 


加 


mpPawwommeamwe 只 次 
NeoPnmeeopewmwow 


% more mediumUF.txt 
625 

528 503 

548 523 

900 条 连接 

% more largeUF. txt 
1000000 


786321 134521 
696834 98245 


200 万 条 连接 
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union-find 的 成 本 模型 。 在 研究 实现 union-find 的 API 的 各 种 算法 时 ， 我 们 统计 的 是 数组 的 访问 


名 次 数 (访问 任意 数组 元 素 的 次 数 ， 无 论 读 写 ) 。 


1.5.2 实现 

我 们 将 讨论 三 种 不 同 的 实现 ， 它 们 均 根据 以 触 点 为 索引 的 id[] 数组 来 确定 两 个 触 点 是 否 存 
在 于 相同 的 连通 分 量 中 。 
1.5.2.1 quick-find 算法 

-种 方法 是 保证 当 且 仅 当 id[p] 等 于 id[qJ 时 p 和 9 是 连通 的 。 换 名 话说， 在 同一 个 连通 分 

量 中 的 所 有 触 点 在 id[] 中 的 值 必须 全 部 相同 。 这 意味 着 connected(p， q) 只 需要 判断 id[p] == 
id[q], 当 且 仅 当 p 和 gq 在 同一 连通 分 量 中 该 语句 才 会 返回 true。 为 了 调用 unionCp，q) 确 保 这 一 -点 ， 
我 们 首先 要 检查 它们 是 否 已 经 存在 于 同一 个 连通 分 量 之 中 。 如 果 是 我 们 就 不 需要 采取 任何 行动 ， 否 
则 我 们 面 对 的 情况 就 是 p 所 在 的 连通 分 量 中 的 所 有 触 点 的 id[] 值 均 为 同一 个 值 ， 而 q 所 在 的 连通 
分 量 中 的 所 有 触 点 的 id 值 均 为 另 一 个 值 。 要 将 两 个 分 量 合 二 为 一 ， 我 们 必须 将 两 个 集合 中 所 有 
触 点 所 对 应 的 id[] 元 素 变 为 同一 个 值 ， 如 表 [5.2 所 示 。 为 此 ， 我 们 需要 遍历 整个 数组 ， 将 所 有 和 
id[p] 相等 的 元 素 的 值 变 为 id[q] 的 值 。 我 们 也 可 以 将 所 有 和 id[q] 相等 的 元 素 的 值 变 为 id[p] 
的 值 一 两 者 篆 可 。 根 据 上 述 文字 得 到 的 find() 和 union() 的 代码 简单 明了 ， 如 下 面 的 代码 框 所 示 。 
图 1.5.3 显示 的 是 我 们 的 开发 用 例 在 处 理 测试 数据 tinyUFtxt 时 的 完整 轨迹 。 


id[] 





public int find(int p) 

{ return id[p]; } Ba i23456789 
public void union(int p, int q) 0123356789 
{ // 将 p 和 q 归 并 到 相同 的 分 量 中 38 3 8 


int pID = find(p); 


int qID = find(q); 0128856789 


65 56 
// 如 果 p 和 q 已 经 在 相同 的 分 量 之 中 则 不 需要 采取 任何 行动 0128855789 
if (pID == qID) return; 7 & 
// 将 p 的 分 量 重 命名 为 9 的 名 称 0128855788 
for (int 1 = 0; 1 < id.length; i++) 21 012 9 
if (id[i] 一 pID) id[i] = qID; 
ee 0118855788 
¥ 88 
50 0 5 
ed 0118800788 
72 1 
表 1.5.2 quick-find 概览 bh det 
61 014 0 
和 ind() 方 法 正在 检查 id[5] 和 id[9] 11M881h188 
pq 0123456789 11 8 
5 9 8 dj ia 
id[p] 和 id[q] 不 等 ， 因 此 union() 
union (方法 需要 要 将 所 有 的 1 终 改 为 8- 会 将 所 有 和 id[p] 相 等 的 元 素 的 值 均 
5 改 为 id[q] 的 值 (加 粗 部 分 ) 
了 jd[p] 和 id[q] 相 等 ,不 需 
要 进行 任何 改动 


888° 5 888 a 
a 图 1.5.3 quick-find 的 轨迹 


1.5 案例 研究 : union-find 算法 号 141 


1.5.2.2 ”quick-find 算法 的 分 析 
find() 操作 的 速度 显然 是 很 快 的， 因为 它 只 需要 访问 id[] 数组 一 次 。 但 quick-find 算法 一 般 
无 法 处 理 大 型 问题 ， 因 为 对 于 每 一 对 输入 union() 都 需要 扫描 整个 id[] 数组 。 


命题 F。 在 quick-find 算法 中 ,每 次 find() 调用 只 需要 访问 数组 一 次 ， 而 归并 两 个 分 量 的 
union() 操作 访问 数组 的 次 数 在 (N+3) 到 (2N+1) 之 间 。 


证 明 。 由 代码 马上 可 以 知道 ,每 次 connected() 调用 都 会 检查 id[] 数组 中 的 两 个 元 素 是 否 相等 ， 
即 会 调用 两 次 find() 方法 。 归 并 两 个 分 量 的 union() 操作 会 调用 两 次 find()， 检 查 id[] 数 
组 中 的 全 部 N 个 元 素 并 改变 它们 中 1 到 N-1 个 元 素 的 值 。 


假设 我 们 使 用 quick-find 算法 来 解决 动态 连通 性 问题 并 且 最 后 只 得 到 了 一 个 连通 分 量 ， 那 么 这 
至 少 需要 调用 N-1 次 union()， 即 至 少 (N+3XN-1) ~ 下 次 数组 访问 一 一 我 们 马上 可 以 猜想 动态 连 
通 性 的 quick-find 算法 是 平方 级 别 的 。 将 这 种 分 析 推 广 我 们 可 以 得 到 ，quick-find 算法 的 运行 时 间 对 
于 最 终 只 能 得 到 少数 连通 分 量 的 一 般 应 用 是 平方 级 别 的 。 在 计算 机 上 用 倍率 测试 可 以 很 容易 验证 这 
个 猜想 ( 指导 性 的 例子 请 见 练习 1.5.23 ) 。 现 代 计算 机 每 秒 钟 能 够 执行 数 亿 甚至 数 十 亿 条 指令 ， 因 
此 如 果 N 较 小 的 话 这 个 成 本 并 不 是 很 明显 。 但 是 在 现代 应 用 中 我 们 也 很 可 能 需要 处 理 几 百 万 甚至 数 
十 亿 的 触 点 和 连接 ， 例 如 我 们 的 测试 文件 largeUF.txt。 如 果 你 还 不 相信 并 且 觉 得 自己 的 计算 机 足够 
快 , 请 使 用 quick-find 算法 找 出 largeUF.txt 中 所 有 整数 对 所 表示 的 连通 分 量 的 数量 。 结 论 无 可 争议 ， Fi 
使 用 quick-find 算法 解决 这 种 问题 是 不 可 行 的 ， 我 们 需要 寻找 更 好 的 算法 。 223 
1.5.2.3 quick-union 算法 
我 们 要 讨论 的 下 一 个 算法 的 重点 是 提高 union() 方法 的 速度 ， 它 和 quick-find 算法 是 互补 的 。 
它 也 基于 相同 的 数据 结构 一 一 以 触 点 作为 索引 的 id[] 数组 ， 但 我 们 赋予 这 些 值 的 意义 不 同 ， 我 们 
需要 用 它们 来 定义 更 加 复杂 的 结构 。 确 切 地 说 ， 每 个 触 点 所 对 应 的 id[] 元 素 都 是 同一 个 分 量 中 的 
另 一 个 触 点 的 名 称 ( 也 可 能 是 它 自己 ) 一 一 我 们 将 这 种 联系 称 为 链接 。 在 实现 find() 方法 时 ， 我 
们 从 给 定 的 触 点 开始 ， 由 它 的 链接 得 到 男 一 个 触 点 ， 再 由 这 个 触 点 的 链接 到 达 第 三 个 触 点 ， 如 此 继 
续 跟随 着 链接 直到 到 达 一 个 根 触 点 , 即 链接 指向 自己 的 触 点 ( 你 将 会 看 到 , 这 样 一 个 触 点 必然 存在 ) 。 
当 且 仅 当 分 别 由 两 个 触 点 开始 的 这 个 过 程 到 达 























了 同一 个 根 触 点 时 它们 存在 于 同一 个 连通 分 量 
之 中 。 为 了 保证 这 个 过 程 的 有 效 性 ， 我 们 需要 
union(Cp，9) 来 保证 这 一 点 。 它 的 实现 很 简单 : 
我 们 由 p 和 9 的 链接 分 别 找到 它们 的 根 触 点 ， 
然后 只 需 将 一 个 根 触 点 链接 到 另 一 个 即 可 将 一 
个 分 量 重 命名 为 另 一 个 分 量 ， 因 此 这 个 算法 叫 
做 quick-union。 和 刚才 一 样 ， 无 论 是 重 命名 
含有 p 的 分 量 还 是 重 命名 含有 9 的 分 量 都 可 以 ， 
右 侧 的 这 段 实现 重 命名 了 p 所 在 的 分 量 。 图 1.5.5 
显示 了 quick-union 算法 在 处 理 tinyUFtxt 时 的 
轨迹 。 图 1.5.4 能 够 很 好 地 说 明 图 1.5.5( 见 1.5.2.4 
节 ) 中 的 轨迹 ， 我 们 接 下 来 要 讨论 的 就 是 它 。 


private int findCint p) 

萎 // 找 出 分 量 的 名 称 
while (p != id[p]) p = id[p]; 
return p; 


public void unionCint p, int q) 
{ // 将 p 和 q 的 根 节点 统一 
int pRoot = find(p); 
int qRoot = find(q); 
if (pRoot == qRoot) return; 
id[pRoot] = qRoot; 


count--; 


quick-union 
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刘 口 用 父 链接 的 方式 表示 了 一 片 森林 
find 〇 会 随 着 链接 到 达 根 触 点 


(| pq 0123456789 
( 59 1118305168 


+ + 
find(5) 即 为 find(9) 
id[id[id[5]]] 即 为 id[id[9]] 





T 
人 > “unionO 〇 只 需要 修改 一 个 链接 

A f pq 0123456789 

EN 105 

CS > 2 


图 1.5.4 quick-union 算法 概述 


1.5.2.4 ”森林 的 表示 

quick-union 算法 的 代码 很 简洁 ， 但 有 些 难以 理解 。 用 节点 ( 带 标签 的 圆圈 ) 表示 和 触 点 ， 用 从 一 个 
节点 到 另 一 个 节点 的 箭头 表示 链接 ， 由 此 得 到 数据 结构 的 图 像 表示 使 我 们 理解 算法 的 操作 变 得 相对 容 
易 。 我 们 的 得 到 的 结构 是 树 一 一 从 技术 上 来 说 ，id[] 数组 用 父 链接 的 形式 表示 了 一 片 森林 。 为 了 简 
化 图 表 ， 我 们 常常 会 省 略 链接 的 箭头 ( 因为 它们 的 指向 全 部 朝 上 ) 和 树 的 根 节点 中 指向 自己 的 链接 。 
tinyUF.txt 的 id[] 数组 所 对 应 的 森林 如 图 1.5.5 所 示 , 无 论 我 们 从 任何 触 点 所 对 应 的 节点 开始 跟随 链接 ， 
最 终 都 将 达到 含有 该 节点 的 树 的 根 节点 。 可 以 用 归纳 法 证 明 这 个 性 质 的 正确 性 : 在 数组 被 初始 化 之 后 ， 
每 个 节点 的 链接 都 指向 它 自己 ; 如 果 在 某 次 union() 操作 之 前 这 条 性 质 成 立 ， 那 么 操作 之 后 它 必然 也 
成 立 。 因 此 ，quick-union 中 的 findQ 方法 能 够 返回 根 节点 所 对 应 的 触 点 的 名 称 ( 这 样 connected() 
才能 够 判定 两 个 触 点 是 否 在 同一 棵 树 中 ) 。 这 种 表示 方法 对 于 这 个 问题 很 实用 ， 因 为 当 且 仅 当 两 个 触 
点 存在 于 相同 的 分 量 之 中 时 它们 对 应 的 节点 才 会 在 同一 棵 树 中 。 另 外 ， 构 造 树 并 不 困难 : quick-union 
中 union0) 的 实现 只 用 了 一 条 语句 就 将 一 个 根 节点 变 为 另 一 个 根 节点 的 父 节点 ， 从 而 归并 了 两 棵 树 。 
1.5.2.5 quick-union 算法 的 分 析 

quick-union 算法 看 起 来 比 quick-find 算法 更 快 ， 因 为 它 不 需要 为 每 对 输入 遍历 整个 数组 。 但 它 


”能 够 快 多 少 呢 ? 分 析 quick-union 算法 的 成 本 比分 析 quick-find 算法 的 成 本 更 困难 ， 因 为 这 依赖 于 输 


入 的 特点 。 在 最 好 的 情况 下 ，findQ 只 需要 访问 数组 一 次 就 能 够 得 到 一 个 触 点 所 在 的 分 量 的 标识 
符 ; 而 在 最 坏 情况 下 ， 这 需要 2N - 1 次 数组 访问 ， 如 图 1.5.6 中 的 0 触 点 (这 个 估计 是 较为 保守 的 ， 
因为 while 循环 中 经 过 编译 的 代码 对 id[p] 的 第 二 次 引用 一 般 都 不 会 访问 数组 ) 。 由 此 我 们 不 难 
构造 一 个 最 佳 情况 的 输入 使 得 解决 动态 连通 性 问题 的 用 例 的 运行 时 间 是 线性 级 别 的 ; 另 一 方面 ,我 
们 也 可 以 构造 一 个 最 坏 情况 的 输入 ， 此 时 它 的 运行 时 间 是 平方 级 别 的 ( 请 见 图 1.5.6 和 下 面 的 命题 
G) 。 幸 好 我 们 不 需要 面 对 分 析 quick-union 算法 的 问题 ， 我 们 也 不 会 仔细 对 比 quick-union 算法 和 
quick-find 算法 的 性 能 ， 因 为 我 们 下 面 将 会 学 习 一 种 比 两 者 的 效率 都 高 得 多 的 算法 。 目 前 ， 我 们 可 
以 将 quick-union 算法 看 做 是 quick-find 算法 的 一 种 改良 ， 因 为 它 解 决 了 quick-find 算法 中 最 主要 的 
问题 (union() 操作 总 是 线性 级 别 的 ) 。 对 于 一 般 的 输入 数据 这 个 变化 显然 是 一 次 改进 ， 但 quick- 
union 算法 仍然 存在 问题 ， 我 们 不 能 保证 在 所 有 情况 下 它 都 能 比 quick-find 算法 快 得 多 ( 对 于 某 些 输 
人 ，quick-union 算法 并 不 比 quick-find 算法 快 ) 。 
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id[] 
pq 0123456789 @OOOOOOOOOQ 
os As 人 


了 苇 玫 了 汪汪 有 才学 
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宝生 ,本 
1283556 


~ 
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65 0128356783 @aOo a 


72 0118305788 
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图 1.5.5 quick-union 算法 的 轨迹 (以 及 相应 的 森林 ) 





225| 
1 














同样 ， 假 设 我 们 使 用 quick-union 算法 解决 了 动态 连通 性 问题 并 最 终 只 得 到 了 一 个 分 量 ， 由 命 
题 G 我 们 马上 可 以 知道 算法 的 运行 时 间 在 最 坏 情况 下 是 平方 级 别 的 。 假 设 输 入 的 整数 对 是 有 序 的 





144 > 第 1 章 基 础 


0-1、0-2、0-3 等 ，N-1 对 之 后 我 们 的 入 个 触 点 将 全 部 处 于 相同 的 集合 之 中 且 由 quick-union 算法 得 
到 的 树 的 高 度 为 N-1， 其 中 0 链接 到 1，1 链接 到 2，2 链接 到 3， 如 此 下 去 ( 请 见 图 1.5.6) 。 由 命 
题 G 可 知 ， 对 于 整数 对 0 i，union() 操作 访问 数组 的 次 数 为 2+2 ( 触 点 0 的 深度 为 i， 触 点 i 的 深 
度 为 0) 。 因 此 ， 处 理 N 对 整数 所 需 的 所 有 find() 操作 访问 数组 的 总 次 数 为 21+2+…+N) ~ N。 


id[] 
01234... OOOQOQ@-.. 


ol 8 


dD? 
2 


04 01234 
4 


ol 
-lo 


深度 4 一 


图 1.5.6 ”quick-union 算法 的 最 坏 情况 


1.5.2.6 加权 quick-union 算法 

幸好 ， 我 们 只 需 简单 地 修改 quick-union 算法 就 能 保证 像 这 样 的 精 糕 情况 不 再 出 现 。 与 其 在 
union() 中 随意 将 一 棵 树 连接 到 另 一 棵 树 ， 我 们 现在 会 记录 每 一 棵 树 的 大 小 并 总 是 将 较 小 的 树 连接 
到 较 大 的 树 上 。 这 项 改动 需要 添加 一 个 数组 和 一 些 代码 来 记录 树 中 的 节点 数 ， 如 算法 1.5 所 示 ，, 但 
它 能 够 大 大 改进 算法 的 效率 。 我 们 将 它 称 为 加 权 quick-union 算法 ( 如 图 1.5.7 所 示 ) 。 该 算法 在 处 
理 tinyUF.txt 时 构造 的 森林 如 图 1.5.8 中 左 侧 的 图 所 示 。 即 使 对 于 这 个 较 小 的 例子 ， 该 算法 构造 的 树 
的 高 度 也 远 远 小 于 未 加 权 的 版 本 所 构造 的 树 的 高 度 。 


quick-union @. @ 
@ Cm \ 


\ / \ 


A Cb ol 
( 大 村“ 树 连 接 到 小 树 
加 权 
ictunan 总 是 选择 将 小 @ 
es Be 
大 树 (小 桂 小 村 ) ( Ag 


图 1.5.7 加 权 quick-union 


1.5.2.7 -加权 quick-union 算法 的 分 析 

图 1.5.8 显示 了 加 权 quick-union 算法 的 
最 坏 情况 。 其 中 将 要 被 归并 的 树 的 大 小 总 是 
相等 的 ( 且 总 是 2 的 冠 ) 。 这些 树 的 结构 看 
-起 来 很 复杂 ， 但 它们 均 含 有 2" 个 节点 ， 因 此 


:高度 都 正好 是 me。 另外 ， 当 我 们 归并 两 个 含 - 
有 2 个 节点 的 树 时 ， 我 们 得 到 的 树 含有 2 


个 节点 ， 由 此 将 树 的 高 度 增加 到 了 n+1。 由 


此 推广 我 们 可 以 证 明 加 权 quick-union 算法 ”. 


能 够 保证 对 数 级 别 的 性 能 。 加 权 quick-union 
算法 的 实现 如 算法 1.5 所 示 。 
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% java WeightedQuickUnionUF < mediumUF.txt 
528 503 
548 523 


3 components 

% java WeightedQuickUnionUF < largeUF.txt 
786321 134521 

696834 98245 


6 components 


union-find 算法 的 实现 加权 quick-union 算法 ) 





算法 15 ( 续 ) 
public. class WeightedQuickUnionUF 


private int[] id;. 
.private int[] sz; 
private int count; 


{ 
count = Ni 
id = new int[N]; 


// 区 链接 数组 ( 由 触 点 索引 ) 

// (出 角 点 当 引 的 ) 各 个 反 节 去 所 对 应 的 分 量 的 天 小 
// 连通 分 量 的 数量 

public WeidhtedQuickUnionUFCint N) 


for Cint 1 = 0; 1 <N; 14+) id[i] = i; 


sz = new int[N]; 


for Cint 1 = 0; 1 < N; i++) sz[i] = 1; 


}. 
public int count() 
{ return count; } 


public boolean connected(int p; int q) 


{ return find(p) == find(q); } 
private int findCint p) 
{ // 跟随 链接 找到 朴 节 点 

while (Cp != id[p]) p = id[p]; 


sz[i] += sz[j]; 


return pi; 
} mn 
public void unionCint p, int q) 
{ 
int 1 = find(p); 
int j = find(q); 
if Ci j return; 
// 将 小 树 的 根 节 点 连接 到 大 树 的 根 节点 
“if Csz[1] < sz[j]) { id[iJ = j; szD] += sz[1]; < 
else { id0j] = i; 
Count--; 
让 


} 


根据 正文 所 述 的 森林 表示 方法 这 段 代 码 很 容易 理解 。 我 们 加 入 了 一 个 由 触 点 索引 的 实例 变量 数组 
5z[]， 这样 union() 就 可 以 将 小 树 的 根 节点 连接 到 大 树 的 根 节点 。 这 使 得 算法 能 够 处 理 规模 较 大 的 问题 。 








227 
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对 照 输入 最 坏 情况 下 的 输入 
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图 1.5.8 “加权 quick-union 算法 的 轨迹 (森林 ) 


命题 H。 对 于 NN 个 般 点 ， 加 权 quick-union 算法 构造 的 森林 中 的 任意 节点 的 深度 最 多 为 lgN。 


证 明 。 我 们 可 以 用 归纳 法 证 明 一 个 更 强 的 命题 ， 即 森林 中 大 小 为 上 的 树 的 高 度 最 多 为 gh。 在 
原始 情况 下 ， 当 上 等 于 1 时 树 的 高 度 为 0。 根据 归纳 法 ， 我 们 假设 大 小 为 的 树 的 高 度 最 多 为 
lgi， 其 中 ick。 设 i <j 且 itj=k， 当 我 们 将 大 小 为 和 大 小 为 的 树 归并 时 ，quick-union 算法 和 
加 权 quick-union 算法 中 触 点 与 深度 示例 如 图 1.5.9 所 示 。 小 树 中 的 所 有 节点 的 深度 增加 了 1， 














229| 但 它们 现在 所 在 的 树 的 大 小 为 itj=k， 而 1+lgi=lg(it) < lg(i+j)=lgk， 性 质 成 立 。 


quick-union 算 法 


和 人 


加 权 quick-union 算 法 


图 1.5.9 “quick-union 算法 与 加 权 quick-union 算法 的 对 比 (100 个 触 点 , -88 次 union() 操作 ) 





平均 深度 :5.11 


推论 。 对 于 加 权 quick-union 算法 和 NN 个 能 点 ， 在 最 二 情况 下 findO、 connected 〇 和 
unionO 的 成 本 的 增长 数量 级 为 logN。 


证 明 。 在 森林 中 ， 机 ae 
间 数 组 常数 次 。 


对 于 动态 连通 性 问题 ,命题 H 和 它 的 推论 的 实际 意义 在 于 加 权 quick-union 算法 是 三 种 算法 中 唯 
一 可 以 用 于 解决 大 型 实际 问题 的 算法 。 加 权 quick-union 算法 处 理 N 个 触 点 和 MM 条 连接 时 最 多 访问 
数组 cMigN 次 ， 其 中 为 常数 。 这 个 结果 和 quick-find 算法 ( 以 及 某 些 情况 下 的 quick-union 算法 ) 
需要 访问 数组 至 少 MN 次 形成 了 鲜明 的 对 比 。 因 此 ， 有 了 加 权 quick-union 算法 我 们 就 能 保证 能 够 在 
合理 的 时 间 范 围 内 解决 实际 中 的 大 规模 动态 连通 性 问题 。 只 需要 多 写 几 行 代码 ， 我 们 所 得 到 的 程序 
在 处 理 实际 应 用 中 的 大 型 动态 连通 性 问题 时 就 会 比 简单 的 算法 快 数 百 万 倍 。 

图 1.5.9 显示 的 是 一 个 含有 100 个 触 点 的 例子 。 从 图 中 我 们 可 以 很 明显 地 看 到 ， 加 权 quick- 
union 算法 中 远离 根 节点 的 节点 相对 较 少 。 事 实 上 ， 只 含有 一 个 节点 的 树 被 归并 到 更 大 的 树 中 的 情 
况 很 常见 ， 这 样 该 节点 到 根 节点 的 距离 也 只 有 一 条 链接 而 已 。 针 对 大 规模 问题 的 经 验 性 研究 告诉 我 
们 , 加 权 quick-union 算法 在 解决 实际 问题 时 一 般 都 能 在 常数 时 间 内 完成 每 个 操作 ( 如 表 1.5.3 所 示 ) 。 
bali 它 效率 更 高 的 算法 了 。 := 志 


表 1.5.3 各 种 union-find 算法 的 性 能 特点 
存在 N 个 触 点 时 成 本 的 增长 数量 级 〈 最 坏 情况 下 ) 














ee 构造 函数 union(O) findO) 
quick-find 算法 o “uN N 1 
quick-union 算法 Sy 树 的 高 度 树 的 高 度 
加 权 quick-union 算法 N leN lgN 

i - 非常 非常 地 接近 但 仍 没有 达到 1 ( 均 排 成 本 ) 
使 用 路 径 压 缩 的 加 权 quick-union 算法 二 AN (请 见 练习 1.5.13 ) 
理想 情况 N 1 1 
1.5.2.8 ”最 优 算法 - 


我 们 可 以 找到 一 种 能 够 保证 在 常数 时 间 内 完成 各 种 操作 的 算法 吗 ? 这 个 问题 非常 困难 并 且 困扰 

了 研究 者 们 许多 年 。 在 寻找 答案 的 过 程 中 ， 大 家 研究 了 quick-union 算法 和 加 权 quick-union 算法 的 
各 种 变 体 。 例 如 ， 下 面 这 种 路 径 压 缩 方法 很 容易 实现 。 理 想 情况 下 ， 我 们 希望 每 个 节点 都 直接 链接 
到 它 的 根 节点 上 ， 但 我 们 又 不 想像 quick-find 算法 那样 通过 修改 大 量 链接 做 到 这 一 点 。 我 们 接近 这 
种 理想 状态 的 方式 很 简单 ， 就 是 在 检查 节点 的 同时 将 它们 直接 链接 到 根 节点 。 这 种 方法 乍 一 看 很 激 
进 , 但 它 的 实现 非常 容易 ， 而 且 这 些 树 并 没有 阻止 我 们 进行 这 种 修改 的 特殊 结构 :如 果 这 么 做 能 够 
”改进 算法 的 效率 ， 我 们 就 应 该 实现 它 。 要 实现 路 径 压 缩 ， 只 需要 为 find() 添加 一 个 循环 ， 将 在 路 
径 上 遇 到 的 所 有 节点 都 直接 链接 到 根 节点 。 我 们 所 得 到 的 结果 是 几乎 完全 扁平 化 的 树 ， 它 和 quick- 
find 算 法 理想 情况 下 所 得 到 的 树 非常 接近 。 这 种 方法 即 简单 又 有 效 ， 但 在 实际 情况 下 已 经 不 太 可 能 
对 加 权 quick-union 算法 继续 进行 任何 改进 了 ( 请 见 练习 1.5.24 ) 。 对 该 情况 的 理论 研究 结果 非常 复 
杂 也 值得 我 们 注意 ;路 径 压 缩 的 加 权 quick-unior 算法 是 最 优 的 算法 ， 但 并 非 所 有 操作 都 能 在 常数 
时 间 内 完成 。 也 就 是 说 ,使 用 路 径 压 缩 的 加 权 quick-union 算 法 的 每 个 操作 在 在 最 坏 情况 下 ( 即 均 摊 后 ) 
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都 不 是 常数 级 别 的 ， 而 且 不 存在 其 他 算法 能 够 保证 union-find 算法 的 所 有 操作 在 均 摊 后 都 是 常数 级 
别 的 (在 非常 一 般 的 cell probe 模型 之 下 ) 。 使 用 路 径 压 缩 的 加 权 quick-union 算法 已 经 是 我 们 对 于 


这 个 问题 能 够 给 出 的 最 优 解 了 。 
1.5.2.9 均 摊 成 本 的 图 像 

与 对 其 他 任何 数据 结构 实现 的 讨论 一 样 ， 
我 们 应 该 按照 1.4 节 中 的 讨论 在 实验 中 用 典型 
的 用 例 验证 我 们 对 算法 性 能 的 猜想 。 图 1.5.10 
详细 显示 了 我 们 的 动态 连通 性 问题 的 开发 用 
例 在 使 用 各 种 算法 处 理 一 份 含有 625 个 触 点 
的 样 例 数据 (mediumUF.txt) 时 的 性 能 。 绘 
制 这 种 图 像 很 简单 (请 见 练习 1.5.16) : 在 
处 理 第 i 个 连接 时 ， 用 一 个 变量 cost 记录 其 
间 访 问 数组 (id[] 或 sz[] ) 的 次 数 ， 并 用 
一 个 变量 total 记录 到 目前 为 止 数组 访问 的 


. 总 次 数 。 我 们 在 Ci， cost) 处 画 一 个 灰 点 ， 


在 Ci，tota1/1) 处 夯 一 个 红 点 ， 红 点 表示 
的 是 每 个 操作 的 平均 成 本 ， 即 均 摊 成 本 ;图 


像 能 够 帮助 我 们 更 好 地 理解 算法 的 行为 。 对“ 


于 quick-find 算法 ， 每 次 union() 操作 都 至 
少 访问 数组 625 次 ( 每 归并 一 个 分 量 还 要 加 


”1， 最 多 再 加 625) ， 每 次 connected() 操 








232 








作 都 访问 数组 2 次 。 一 开始 ， 大 多 数 连接 都 
会 产生 一 个 union() 调用 ， 因 此 累计 平均 值 
徘徊 在 625 左右 ; 后 来 ， 大 多 数 连接 产生 的 


connected() 调用 会 跳 过 union()， 因 此 累 


计 平 均值 开始 下 降 ， 但 仍 保持 了 相对 较 高 的 
水 平 (能 够 产生 大 量 connected() 调用 并 跳 
过 union() 的 输入 性 能 要 好 得 多 ,例子 请 见 
练习 1.5.23 ) 。 对 于 quick-union 算法 ， 所 有 
的 操作 在 初始 阶段 访问 数组 的 次 数 都 不 多 ; 
到 了 后 期 ， 树 的 高 度 成 为 一 个 重要 因素 ， 均 
挫 成 本 的 增长 很 明显 。 对 于 加 权 quick-union 
算法 ， 树 的 高 度 一 直 很 小 ， 没 有 任何 昂贵 的 
操作 ， 均 摊 成 本 也 很 低 。 这 些 实验 验证 了 我 


quick-find 算 法 
1300 王 ~ 
,每 个 灰 训 者 表 
示 用 例 处 理 过 
的 一 条 连接 
unionQ 〇 操作 至 


少 访问 数组 625 次 “ 


A 









458 


访问 数组 的 次 数 


每 个 红 点 都 表 
示 一 个 累计 平均 Ne 





connected() 损 作 
只 会 访问 数组 ?次 
\ 
二 
0 连接 总 数 900 
ick-uni 
wo 
] ey 20 
i / 
0 


加 权 quick-union 算 法 
没有 任何 昂贵 的 操作 8 
~ 2 


0 


图 1.5.10 ”所 有 操作 的 总 成 本 
(625 个 触 点 ， 另 见 彩 插 ) 


们 的 结论 ， 显 然 非常 有 必要 实现 加 权 quick-union 算法 ， 在 解决 实际 问题 时 已 经 没有 多 少 进一步 改 


进 的 空间 了 。 
1.5.3 展望 


直观 感觉 上 ， 我 们 学 习 的 每 种 UF 的 实现 都 改进 了 上 一 个 版 本 的 实现 ， 但 这 个 过 程 并 不 突 匹 ， 
因为 我 们 可 以 总 结 学 者 们 对 这 些 算法 多 年 的 研究 。 我 们 很 明确 地 说 明了 问题 ， 解 决 方法 的 实现 也 很 
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简单 ， 因此 可 以 用 经 验 性 的 数据 评估 各 个 算法 的 优 劣 。 另外 ,还 可 以 通过 这 些 研究 验证 将 算法 的 
性 能 量化 的 数学 结论 。 只 要 可 能 ， 我 们 在 本 书 中 研究 各 种 基础 问题 时 都 会 遵循 类 似 于 本 节 中 讨论 
union-find 问题 时 的 基本 步 又， 在 这 里 我 们 要 再 次 强调 它们 。 

口 完整 而 详细 地 定义 问题 ， 找 出 解决 问题 所 必需 的 基本 抽象 操作 并 定义 一 份 API。 

口 简洁 地 实现 一 种 初级 算法 ， 给 出 一 个 精心 组 织 的 开发 用 例 并 使 用 实际 数据 作为 输入 。 

口 当 实现 所 能 解决 的 问题 的 最 大 规模 达 不 到 期 望 时 决定 改进 还 是 放弃 。 

口 逐步 改进 实现 ， 通 过 经 验 性 分 析 或 ( 和 ) 数学 分 析 验 证 改进 后 的 效果 。 

口 用 更 高 层次 的 抽象 表示 数据 结构 或 算法 来 设计 更 高 级 的 改进 版 本 。 

口 如 果 可 能 尽量 为 最 坏 情况 下 的 性 能 提供 保证 ， 但 在 处 理 普通 数据 时 也 要 有 良好 的 性 能 。 

口 在 适当 的 时 候 将 更 细致 的 深入 研究 留 给 有 经 验 的 研究 者 并 继续 解决 下 一 个 问题 。 

我 们 从 union-find 问题 中 可 以 看 到 ， 算 法 设计 在 解决 实际 问题 时 能 够 为 程序 的 性 能 带 来 惊人 的 
提高 ， 这 种 潜力 使 它 成 为 热门 研究 领域 。 还 有 什么 其 他 类 型 的 设计 行为 可 能 将 成 本 降 为 原来 的 数 
百 万 甚至 数 十 亿 分 之 一 呢 ? 

设计 高 效 的 算法 是 一 种 很 有 成 就 感 的 智力 活动 ， 同 时 也 能 够 产生 直接 的 实际 效益 。 正 如 动态 连 
通 性 问题 所 示 ， 为 解决 一 个 简单 的 问题 我 们 学 习 了 许多 算法 ， 它 们 不 但 有 用 有 趣 ， 也 精巧 而 引 人 人 和 人 
胜 。 我们 还 将 过 到 许多 新 颖 独特 的 算法 ,它们 都 是 人 们 在 数 十 年 以 来 为 解决 许多 实际 问题 而 发 明 的 。 
随 着 计算 机 算法 在 科学 和 商业 领域 的 应 用 范围 越 来 越 广 ， 能 够 使 用 高 效 的 算法 来 解决 老 问题 并 为 新 
问题 开发 有 效 的 解决 方案 也 越 来 越 重要 了 。 2 233] 


图 答 用 


问 我 希望 为 API 添加 一 个 delete() 方法 来 允许 用 例 删 除 连接 。 能 够 给 我 一 些 建议 吗 ? 

答 ”目前 还 没有 人 能 够 发 明 既 能 处 理 删除 操作 而 又 和 本 节 中 所 介绍 的 算法 同样 简单 而 高 效 的 算法 。 这 个 
主题 在 本 书 中 会 反复 出 现 。 在 我 们 讨论 的 一 些 数据 结构 中 删除 比 添加 要 困难 得 多 。 

间 cellprobe 模型 是 什么 ? 

答 ” 它 是 一 种 计算 模型 ， 其 中 我 们 只 会 记录 对 随机 内 存 的 访问 ,内存 大 小 足以 保存 所 有 输入 且 假设 其 他 
操作 均 没有 成 本 。 234 

















图 疆 : 

1.5.1 使 用 quick-find 算法 处 理 序列 9-0 3-4 5-8 7-2 2-1 5-7 0-3 4-2 。 对 于 输入 的 每 一 对 整数 ， 给 出 1d[] 
数组 的 内 容 和 访问 数组 的 次 数 。 

1.5.2 使 用 quick-union 算法 ( 请 见 1.5.2.3 节 代 码 框 ) 完成 练习 1.5.1。 另 外 ， 在 处 理 完 输入 的 每 对 整数 
之 后 画 出 id[] 数组 表示 的 森林 。 

1.5.3 ”使 用 加 权 quick-union 算法 〈 请 见 算法 1.5 ) 完成 练习 1.5.1。 

1.5.4 在 正文 的 加 权 quick-union 算法 示例 中 ， 对 于 输入 的 每 一 对 整数 ( 包括 对 照 输入 和 最 坏 情况 下 的 输 
入 )， 给 出 id[] 和 sz[] 数组 的 内 容 以 及 访问 数组 的 次 数 。 

1.5.5 “在 一 台 每 秒 能 够 处 理 10” 条 指令 的 计算 机 上 ， 估 计 quick-find 算法 解决 含有 10? 个 触 点 和 10 条 连 
接 的 动态 连通 性 问题 所 需 的 最 短 时 间 ( 以 天 记 ) 。 假 设 内 循环 for 的 每 一 次 迭代 需要 执行 10 条 
机 器 指令 。 
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1.5.6 使 用 加 权 quick-union 算法 完成 练习 1.5.5。 
1.5.7， 分 别 为 quick-find 算法 和 quick-union 算法 实现 QuickFindUF 类 和 QuickUnionUF 类 。 
1.5.8， 用 一 个 反例 证 明 quick-find 算法 中 的 union() ad 
public void unionCint p, int q) 

if (connected(p, q)) return; 

// :将 吕 的 分 童 重 命名 为 的 分 量 

for. (int = 0; i < id.length; i++) 

if Cid[i]. == id[p]) idfi] = id[q]; 
Count--; 


有 
1.5.9 画 出 下 面 的 id[] 数组 所 对 应 的 树 。 这 可 能 是 加 权 quick-union 算法 得 到 的 结果 吗 ? 解释 为 什么 不 
可 能 ， 或 者 给 出 能 够 得 到 该 数组 的 一 系列 操作 。 


i 0123456789 
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1.5.10 在 加 权 quick-union 算法 中 ,假设 我 们 将 id[find《p)] 的 值 设 为 q 而 非 id[findCq)] ， 所 得 的 
算法 是 正确 的 吗 ? 
答 : 是 ,但 这 会 增加 树 的 高 度 ， 因此 天 法 保证 同样 的 性 能 ， 

1.5.11 实现 加 权 quick-find 算法 ， 其 中 我 们 总 是 将 较 小 的 分 量 重 命名 为 较 大 的 分 量 的 标识 符 。 这 种 改变 
会 对 性 能 产生 怎样 的 影响 ? 





“1.5.12 使 用 路 径 压缩 的 quick-union 算法 。 根 据 路 径 压缩 修改 quick-union 算法 ( 请 见 1.5.2.3 节 ) ,在 

人 indO 方法 中 添加 一 个 循环 来 将 从 p 到 根 节点 的 路 径 上 的 每 个 触 点 都 连接 到 根 节点 。 给 出 一 列 
输入 ， 使 该 方法 能 够 产生 一 条 长 度 为 4 的 路 径 。 注 意 : 该 算法 的 所 有 操作 的 均 排 成 本 已 知 为 对 
数 级 别 。 

1.5.13 使 用 路 径 压缩 的 加 权 quick-union 算法 。 修 改 加 权 quick-union 算法 (算法 1.5 ) ,实现 如 练习 1.5.12 
所 述 的 路 径 压缩 。 给 出 一 列 输入 ， 使 该 方法 能 够 产生 一 棵 高 度 为 4 的 树 。 注 意 ; 该 算法 的 所 有 
操作 的 均 挫 成 本 已 知 被 限制 在 反 Ackermann 函 孝 的 范围 之 内 ， 且 对 于 实际 应 用 中 可 能 出 现 的 所 
及 值 均 小 于 5。 

1.5.14 根据 高 度 加 权 的 quick-union 并- 给 出 UF 用 一 个 实现 ， 使 用 和 加 权 quick-union 第 半 作风 的 六 赂 
但 记录 的 是 机 度 并 总 是 将 匀 的 本 玉 科 的 村 上 。 用 算法 证 明 NN 个 触 点 的 树 的 高 度 不 

“会 超过 其 大 小 的 对 数 级 别 。 - BL 

1.5.15 二 项 树 。 请 证 明 , 对 于 加 权 quick-union 算法 ee 
在 这 种 情况 下 ， 计 算 含有 N=>" 个 节点 的 树 中 节点 的 平均 深度 。 

1.5.16 均 排 成 本 的 图 像 。 修 改 你 为 练习 1.5.7 给 出 的 实现 ， 绘 出 如 正文 所 示 的 均 捧 成 本 的 图 像 。 

1.5.17 随机 连接 。 设 计 UF 的 一 个 用 例 ErdosRenyi， 从 命令 行 接受 一 个 整数 N， 在 0 到 N-1 之 间 产 生 随 

” ”机 整数 对 ,调用 connected0) 判断 它们 是 否 相 连 ， 如 果 不 是 则 调用 union() 方法 ( 和 我 们 的 开 
发 用 例 一 样 ) 。 不 断 循环 直到 所 有 触 点 均 相互 连通 并 打印 出 生成 的 连接 总 数 。 将 你 的 程序 打包 
成 一 个 接受 参数 N 并 返回 连接 总 数 的 静态 方法 count () ,添加 一 个 main() 方法 从 命令 行 接受 N, 
调用 count() 并 打印 它 的 返回 值 。 es q ~ 


1.5.18 


1.5.19 


1.5.20 
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随机 网 格 生成 器 。 编 写 一 个 程序 RandomGrid， 从 命令 行 接受 一 个 int 值 N， 生 成 一 个 NxN 的 
网 格 中 的 所 有 连接 。 它 们 的 排列 随机 且 方向 随机 ( 即 (p q) 和 (q p) 出 现 的 可 能 性 是 相等 的 ) ， 将 
这 个 结果 打印 到 标准 输出 中 。 可 以 使 用 RandomBag 将 所 有 连接 随机 排列 ( 请 见 练习 1.3.34) ， 
并 使 用 如 右 下 所 示 的 Connection 骸 套 类 来 将 p 和 q 封装 到 一 个 对 象 中 。 将 程序 打包 成 两 个 静态 
方法 : generate() ,接受 参数 N 并 返回 一 个 连接 的 数组 ;main() ， 从 命令 行 接受 参数 N， 调 用 
generate()， 人 遍历 返 回 的 数组 并 打印 出 所 有 连接 。 

动画 。 编 写 一 个 RandomGrid ( 请 见 练习 1.5.18 ) 

的 用 例 ， 和 我 们 的 开发 用 例 一 样 使 用 UnionFind ri class Connection 


来 检查 触 点 的 连通 性 并 在 处 理 的 同时 用 StdDraw int p; 
将 它们 绘 出 。 int q; 
动态 生长 。 使 用 链表 或 大 小 可 变 的 数组 实现 加 权 public ConnectionCint p, int q) 


quick-union 算法 ， 去 掉 需 要 预先 知道 对 象 数量 ] ssp P; this:q = 9g; 


的 限制 。 为 API 添加 一 个 新 方法 newSite()， 
它 应 该 返回 一 个 类 型 为 int 的 标识 符 。 封装 连接 的 嵌 套 类 





1.5.23 


1.5.24 


1.5.25 


1.5.26 


Erd6s-Renyi 模型 。 使 用 练习 1.5.17 的 用 例 验证 这 个 狂想: 得 到 单个 连通 分 量 所 需 生成 的 整数 对 
数量 为 ~1/2NinN。 

Erd6s-Renyi 模型 的 倍率 实验 。 开 发 一 个 性 能 测试 用 例 ， 从 命令 行 接受 一 个 int 值 T 并 进行 T 次 
以 下 实验 : 使 用 练习 1.5.17 的 用 例 生成 随机 连接 ， 和 我 们 的 开发 用 例 一 样 使 用 UnionFind 来 检 
查 触 点 的 连通 性 ,不断 循环 直到 所 有 触 点 均 相互 连通 。 对 于 每 个 N， 打 印 出 N 值 和 平均 所 需 的 连 
接 数 以 及 前 后 两 次 运行 时 间 的 比值 。 使 用 你 的 程序 验证 正文 中 的 猜想 : quick-find 算法 和 quick- 
union 算法 的 运行 时 间 是 平方 级 别 的 ， 加 权 quick-union 算法 则 接近 线性 级 别 。 

在 Erd6s-Renyi 模型 下 比较 quick-find 算法 和 quick-union 算法 。 开 发 一 个 性 能 测试 用 例 ， 从 命令 
行 接受 一 个 int 值 T 并 进行 T 次 以 下 实验 : 使 用 练习 1.5.17 的 用 例 生成 随机 连接 。 保 存 这 些 连 
接 并 和 我 们 的 开发 用 例 一 样 分 别 用 quick-find 算法 和 quick-union 算法 检查 触 点 的 连通 性 ， 不 断 
循环 直到 所 有 触 点 均 相互 连通 。 对 于 每 个 N， 打 印 出 N 值 和 两 种 算法 的 运行 时 间 的 比值 。 

适用 于 Erd5s-Renyi 模型 的 快速 算法 。 在 练习 1.5.23 的 测试 中 增加 加 权 quick-union 算法 和 使 用 路 
径 压 缩 的 加 权 quick-union 算法 。 你 能 分 辨 出 这 两 种 算法 的 区 别 吗 ? 

随机 网 格 的 倍率 测试 。 开 发 -一 个 性 能 测试 用 例 , 从 命令 行 接受 一 个 int 值 T 并 进行 T 次 以 下 实验 : 
使 用 练习 1.5.18 的 用 例 生成 一 个 NxN 的 随机 网 格 ， 所 有 连接 的 方向 随机 且 排 列 随机 。 和 我 们 的 
开发 用 例 一 样 使 用 UnionFind 来 检查 触 点 的 连通 性 ， 不 断 循环 直到 所 有 触 点 均 相 互 连 通 。 对 于 每 
个 N， 打 印 出 N 值 和 平均 所 需 的 连接 数 以 及 前 后 两 次 运行 时 间 的 比值 。 使 用 你 的 程序 验证 正文 中 
的 猜想 : quick-find 算法 和 quick-union 算法 的 运行 时 间 是 平方 级 别 的 ， 加 权 quick-union 算法 则 
接近 线性 级 别 。 注 意 : 随 着 N 值 加 倍 ， 网 格 中 触 点 的 数量 会 乘 4， 因 此 平方 级 别 的 算法 的 运行 时 
间 会 变 为 原来 的 16 倍 ， 线 性 级 别 的 算法 的 运行 时 间 则 变 为 原来 的 4 售 。 

Erd5s-Renyi 模型 的 均 排 成 本 图 像 。 开 发 一 个 用 例 ， 从 命令 行 接受 一 个 int 值 N, 在 0 到 N-1 之 
间 产 生 随机 整数 对 ， 调 用 connected() 判断 它们 是 否 相连 ， 如 果 不 是 则 调用 union() 方法 ( 和 
我 们 的 开发 用 例 一 样 ) 。 不 断 循环 直到 所 有 触 点 均 相互 连通 。 按 照 正文 的 样式 将 所 有 操作 的 均 
捧 成 本 绘制 成 图 像 。 
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和 


排序 就 是 将 一 组 对 象 按照 某 种 逻辑 顺序 重新 排列 的 过 程 。 比 如 ， 信 用 卡 账单 中 的 交易 是 按照 昌 
期 排序 的 一 一 这 种 排序 很 可 能 使 用 了 某 种 排序 算法 。 在 计算 时 代 早期 ， 大 家 普遍 认为 30% 的 计算 
周期 都 用 在 了 排序 上 。 如 果 今天 这 个 比例 降低 了 ， 可 能 的 原因 之 一 是 如 今 的 排序 算法 更 加 高 效 ， 而 
并 非 排序 的 重要 性 降低 了 。 现 在 计算 机 的 广泛 使 用 使 得 数据 无 处 不 在 ， 而 整理 数据 的 第 一 步 通常 就 
是 进行 排序 。 所 有 的 计算 机 系统 都 实现 了 各 种 排序 算法 以 供 系 统 和 用 户 使 用 。 
即使 你 只 是 使 用 标准 库 中 的 排序 函数 ， 学 习 排序 算法 仍然 有 三 大 实际 意义 : 
口 对 排序 算法 的 分 析 将 有 助 于 你 全 面 理解 本 书 中 比较 算法 性 能 的 方法 ; 
口 类 似 的 技术 也 能 有 效 解决 其 他 类 型 的 问题 ; 
口 排序 算法 常常 是 我 们 解决 其 他 问题 的 第 一 步 。 
更 重要 的 是 这 些 算法 都 很 经 典 、 优 雅 和 高 效 。 
排序 在 商业 数据 处 理 和 现代 科学 计算 中 有 着 重要 的 地 位 ， 它 能 够 应 用 于 事物 处 理 、 组 合 优化 、 
天 体 物理 学 、 分 子 动力 学 、 语 言 学 、 基 因 组 学 、 天 气 预报 和 很 多 其 他 领域 。 其 中 一 种 排序 算法 ( 快 
速 排序 ， 见 2.3 节 ) 甚至 被 誉 为 20 世纪 科学 和 工程 领域 的 十 大 算法 之 一 。 
Pl 在 本 章 中 我 们 将 学 习 几 种 经 典 的 排序 算法 ， 并 高 效 地 实现 了 “优先 队列 ”这 种 基础 数据 类 型 。 
243| 我 们 将 讨论 比较 排序 算法 的 理论 基础 并 在 本 章 结尾 总 结 若干 排序 算法 和 优先 队列 的 应 用 。 
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2.1 初级 排序 算法 


作为 对 排序 算法 领域 的 第 一 次 探索 ， 我 们 将 学 习 丙 种 初级 的 排序 算法 以 及 其 中 一 种 的 一 个 变 体 。 
深入 学 习 这 些 相对 简单 的 算法 的 原因 在 于 : 第 一 ,我 们 将 通过 它们 熟悉 一 些 术 语 和 简单 的 技巧 ; 第 二 ， 
ig hte 第 三 ， 以 后 你 会 发 现 ， 它 们 
有 助 于 我 们 改进 复杂 算法 的 效率 。 


这 关东 游戏 规则 


我 们 关注 的 主要 对 象 是 重新 排列 元 组 元 素 的 算法 ， 其 中 每 个 元 素 都 有 一 个 主键。 排序 算法 的 目 
标 就 是 将 所 有 元 素 的 主键 按照 某 种 方式 排列 ( 通常 是 按照 大 小 或 是 字母 顺序 ) 。 排 序 后 索引 较 大 的 


主键 大 于 等 于 索引 较 小 的 主键 。 元 素 和 主键 的 具体 性 质 在 不 同 的 应 用 中 千差万别 。 在 Java 中 , 元 素 - 


通常 都 是 对 象 ,对 主键 的 抽象 描述 则 是 通过 一 种 内 置 的 机 制 ( 请 见 2.1.1.4 节 中 的 Comparable 接口 ) 
来 完成 的 。 

“排序 算法 类 模版 ”中 的 Example 类 展示 了 我 们 的 习惯 约定 : 我 们 会 将 排序 代码 放 在 类 的 
sort () 方法 中 ， 该 类 还 将 包含 二 助 函 数 less() 和 exch()( 可 能 还 有 其 他 辅助 函数 ) 以 及 一 个 示 
例 用 例 main() 。Example 类 还 包含 了 一 些 早期 调试 使 用 的 代码 : 测试 用 例 mainQ 将 标准 输入 得 

”到 的 字符 串 排序 ， 并 用 私有 方法 show() 打印 字符 数组 的 内 容 。 我 们 还 会 在 本 章 中 遇 到 各 种 用 于 比 
较 不 同 算法 并 研究 它们 的 性 能 的 测试 用 例 。 为 了 区 别 不 同 的 排序 算法 ， 我 们 为 相应 的 类 取 了 不 同 
的 名 字 ， 用 例 可 以 根据 名 字 调 用 不 同 的 实现 ， 例 如 Insertion.sort()、Merge.sort()、Quick. 
sort() 等 。 

大 多 数 情况 下 ， 我 们 的 排序 代码 只 会 通过 两 个 方法 操作 数据 : less 〇 方法 对 元 素 进行 比较 ， 
exch() 方法 将 元 素 交换 位 置 。exch() 方法 的 实现 很 简单 ， 通 过 Comparable 接口 实现 1ess() 方 
法 也 不 困难 。 将 数据 操作 限制 在 这 两 个 方法 中 使 得 代码 的 可 读 性 和 可 移植 性 更 好 ， 更 容易 验证 代码 
的 正确 性 、 分 析 性 能 以 及 排序 算法 之 间 的 比较 。 在 学 习 具体 的 排序 算法 实现 之 前 ， 我 们 先 讨论 几 个 

”对 于 所 有 排序 算法 都 很 重要 的 问题 。 


排序 算法 类 的 模板 





public class Example 


public static void sort(Comparable[] a) 
{。 /* 请 见 算法 2.1、 算 法 22、 算 法 23、 算 法 24、 算 法 2.5 或 算法 2.7*/ 上 


private static boolean less(Comparable v, Comparable w) 
{ return v.compareTo(w) < 0; } 


private static void exch(Comparable[]} a, int 1, int j) 
{ Comparable t = a[i]; a[i] = a[j]; a[j] = t; } 


private static void showCComparable[] a) 
人 // 在 单行 中 打印 数组 
for (int 1 = 0; i < a.length; i++) 





StdOut.print(a[i] + " "); % more tiny.txt 
Stdout.printlnO; SORTEXAMPLE 
public static boolean isSorted(Comparable[] a) % java Example < tiny.txt 
下 // 测试 数组 元 素 是 否 有 座 AEELMOPRSTX 


for (int i = 1; 1 < a.length; i++) 
证 QessCa[i], a[fi-1])) return false; 
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return true; 


public static void main(String[l] 
args) - % more words3.txt 
~ 人“// .从 标准 输入 读 取 字 符 事 ， 将 它们 排序 并 输出 bed bug dad yes zoo ... all bad yet 
String[] a = In.readStringsO); 
Sort(a); % java Example < words.txt 


‘assert issorted(a); 一 . ~ all bad bed bug dad ... yes yet zoo 
~ Show(a); = 
1 
’ 
这 个 类 展示 的 是 数组 排序 实现 的 框架 。 对 于 我 们 学 习 的 每 种 排序 算法 ， 我 们 都 会 为 这 样 一 个 类 实现 
一 个 sort() 方法 并 将 Example 改 为 算法 的 名 称 。 测 试用 例会 将 标准 输入 得 到 的 字符 串 排序 ， 但 是 这 段 
区 45， 代码 使 我 们 的 排序 方法 适用 于 任意 实现 了 Comparab1e 接口 的 数据 类 型 。 








2.1.1.1 验证 
， ”无 论 数组 的 初始 状态 是 什么 ， 排序 算法 都 能 成 功 吗 ? 谦 慎 起 见 ， 我 们 会 在 测试 代码 中 添加 一 条 
语句 assert isSorted(a); 来 确认 排序 后 数组 元 素 都 是 有 序 的 。 尽管 一 般 都 会 测试 代码 并 从 数学 
上 证 明 算 法 的 正确 性 ， 但 在 实现 每 个 排序 算法 时 加 上 这 条 语句 仍然 是 必要 的 。 需要 注意 的 是 ， 如 果 
我 们 只 使 用 exch() 来 交换 数组 的 元 素 ， 这 个 测试 就 足够 了 。 当 我 们 直接 将 值 存 人 数组 中 时 ， 这 条 
语句 无 法 提供 足够 的 保证 ( 例如 ， 把 初始 输入 数组 的 元 素 全 部 置 为 相同 的 值 也 能 通过 这 个 测试 ) 。 
2.1.1.2 ”运行 时 间 

我 们 还 要 评估 算法 的 性 能 。 首 先 ， 要 计算 各 个 排序 算法 在 不 同 的 随机 输入 下 的 基本 操作 的 次 数 
(包括 比较 和 交换 ， 或 者 是 读 写 数组 的 次 数 ) 。 然 后 ， 我 们 用 这 些 数据 来 估计 算法 的 相对 性 能 并 介 
绍 在 实验 中 验证 这 些 猜想 所 使 用 的 工具 。 对 于 大 多 数 实现 ， 代码 风格 一 致 会 使 我 们 更 容易 作出 对 性 
能 的 合理 猜想 。 i 





排序 成 本 模型 。 在 研究 排序 算法 时 ， 我 们 需要 计算 比较 和 交换 的 数量 。 对 于 不 交换 元 来 的 第 法 ， 
我 们 会 计算 访问 数组 的 次 数 。 | 


2.1.1.3 ”额外 的 内 存 使 用 区 
排序 算法 的 额外 内 存 开销 和 运行 时 间 是 同等 重要 的 。 排 序 算法 可 以 分 为 两 类 : 除了 函数 调用 所 
需 的 栈 和 固定 数目 的 实例 变量 之 外 无 需 额 外 内 存 的 原 地 排序 算法 ， 以 及 需要 额外 内 存 空间 来 存储 另 
一 份 数组 副本 的 其 他 排序 算法 。 a 
2.1.1.4 数据 类 型 > 
我 们 的 排序 算法 模板 适用 于 任何 实现 了 Comparable 
接口 的 数据 类 型 。 遵 守 Javs 惯例 的 好 处 是 很 多 你 希望 排 和 oa = 9ew Dosber 


序 的 数据 都 实现 了 Comparable 接口 。 例 如 ，Java 中 封装 a[i] = StdRandom.uniformC); 
数字 的 类 型 Integer 和 Double， 以 及 String 和 其 他 许 。 Qicksort(a); 
多 高 级 数据 类 型 (如 File 和 URL ) 都 实现 了 Comparable 将 M 个 随机 值 的 数组 排序 


接口 。 因 此 你 可 以 直接 用 这 些 类 型 的 数组 作为 参数 调用 我 : 
们 的 排序 方法 。 例 如 ; 右上 方 的 代码 使 用 了 快速 排序 (请 见 23 节 ) 来 对 N 个 随机 的 Double 数据 进 
246| 行 排序 。 b 3 . Dy 
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在 创建 自己 的 数据 类 型 时 ， 我 们 只 
要 实现 Comparable 接口 就 能 够 保证 用 


public class Date implements Comparable<Date> 
{ 


例 代码 可 以 将 其 排序 。 要 做 到 这 一 点 ， 
. private final int month; 
只 需要 实现 一 个 compareTo0 方法 来 private final int year; 
定义 目标 类 型 对 象 的 自然 次 序 ， 如 右 侧 public DateCint d, int m, int y) 
的 Date 数据 类 型 所 示 ( 参见 表 1.2.12 ) 。 { day= d; month =» mn; year wy; } 
对 于 v<w、v=w 和 v>w 三 种 情况 ， public int dayO { return day; } 
public int month() { return month; } 
Java 的 习惯 是 在 v.compareToCw) 被 public int yearO { return year; } 


调用 时 分 别 返 回 一 个 负 整 数 、 零 和 一 


public int compareTo(Date that) 





个 正 整数 (一 般 是 -1、0 和 1) 。 为 了 { 
忆 约 简 本 ,我 们 接 下 用 ow 来 表示 lear 2 tar year 二 
v.compareTo(w)>0 这 样 的 代码 。 一 般 if (this.month > th: return +1; 
Re if (this.month < th return -1; 
来 说 ， 如 果 v 和 w 无 法 比较 或 者 两 者 之 dl 
-是 nu11，v.compareTo(Cw) 将 会 抛 出 if (this.day < that.day ) return -1; 
一 个 异常 。 此 外 ，compareTo() 必须 实 Np 
珊 个 先 可 的 比 以 序列 ， 即 : public String toStringO) 
口 自 反 性 ， 对 于 所 有 的 v，v=v; { return month + "/" + day + "/" + year; } 
口 反 对 称 性 ， 对 于 所 有 的 vw 都 上 
En ei 定义 一 个 可 比较 的 数据 类 型 


口 传递 性 , 对 于 所 有 的 v、w 和 x， 
如 果 v<=w 且 w<=x， 则 v<=x。 

从 数学 上 来 说 这 些 规则 都 很 标准 和 自然 ， 遵 守 它们 应 该 不 难 。 总 之 ，compareTo() 实现 了 我 们 
的 主键 抽象 一 一 它 给 出 了 实现 了 Comparable 接口 的 任意 数据 类 型 的 对 象 的 大 小 顺序 的 定义 。 需 要 
注意 的 是 compareTo() 方法 不 一 定 会 用 到 进行 比较 的 实例 的 所 有 实例 变量 ， 毕 竞 数组 元 素 的 主键 
很 可 能 只 是 每 个 元 素 的 一 小 部 分 。 

本 章 剩 余 篇 幅 将 会 讨论 对 一 组 自然 次 序 的 对 象 进 行 排序 的 各 种 算法 。 为 了 比较 和 对 照 各 种 算 
法 ， 我 们 会 检查 它们 的 许多 性 质 ， 包 括 在 各 种 输入 下 它们 比较 和 交换 数组 元 素 的 次 数 以 及 额外 内 
存 的 使 用 量 。 通 过 这 些 我 们 能 够 对 它们 的 性 能 作出 猜想 ， 而 这 些 猜 想 在 过 去 的 数 十 年 间 已 经 在 无 
数 的 计算 机 上 被 验证 过 了 。 所 有 的 实现 都 是 需要 通过 检验 的 ， 所 以 我 们 也 会 讨论 相关 的 工具 。 在 
研究 经 典 的 选择 排序 、 插 人 排序 、 希 尔 排序 、 归 并 排序 、 快 速 排序 和 堆 排 序 之 后 ， 我 们 将 在 2.5 
节 讨论 一 些 实际 的 应 用 和 问题 。 247 


2.1.2 选择 排序 

一 种 最 简单 的 排序 算法 是 这 样 的 : 首先 ， 找 到 数组 中 最 小 的 那个 元 素 ， 其 次 ， 将 它 和 数组 的 第 
一 个 元 素 交换 位 置 ( 如 果 第 一 个 元 素 就 是 最 小 元 素 那么 它 就 和 自己 交换 ) 。 再 次 ， 在 剩 下 的 元 素 中 
找到 最 小 的 元 素 ， 将 它 与 数组 的 第 二 个 元 素 交 换 位 置 。 如 此 往复 ， 直 到 将 整个 数组 排序 。 这 种 方法 
叫做 选择 排序 ， 因 为 它 在 不 断 地 选择 剩余 元 素 之 中 的 最 小 者 。 

如 算法 2.1 所 示 ， 选 择 排序 的 内 循环 只 是 在 比较 当前 元 素 与 目前 已 知 的 最 小 元 素 ( 以 及 将 当前 
索引 加 1 和 检查 是 否 代码 越界 ) ， 这 已 经 简单 到 了 极点 。 交 换 元 素 的 代码 写 在 内 循环 之 外 ， 每 次 交 
换 都 能 排 定 一 个 元 素 ， 因 此 交换 的 总 次 数 是 N。 所 以 算法 的 时 间 效 率 取决 于 比较 的 次 数 。 


















总 的 来 说 ， 选 择 排序 是 一 种 很 容易 理解 和 实现 的 简单 排序 算法 ， 它 有 两 个 很 鲜明 的 特点 。 
运行 时 间 和 给 入 无 关 。 为 了 找 出 最 小 的 元 素 而 扫描 一 这 数组 并 不 能 为 下 一 遍 扫 描 提 供 什么 信息 。 
这 种 性 质 在 某 些 情况 下 是 缺点 ， 因 为 使 用 选择 排序 的 人 可 能 会 惊讶 地 发 现 ， 一 个 已 经 有 序 的 数组 或 
是 主键 全 部 相等 的 数组 和 一 个 元 素 随机 排列 的 数组 所 用 的 排序 时 间 竞 然 一 样 长 ! 我 们 将 会 看 到 ， 其 
他 算法 会 更 善于 利用 输入 的 初始 状态 。 
，。 ”数据 移动 是 最 少 的 。 每 次 交换 都 会 改变 两 个 数组 元 素 的 值 ， 因此 选择 排序 用 了 次 交换 一 一 交 
换 次 数 和 数组 的 大 小 是 线性 关系 。 我 们 将 研究 的 其 他 任何 算法 都 不 具备 这 个 特征 (大 部 分 的 增长 数 
248] 量 级 都 是 线性 对 数 或 是 平方 级 别 )。 > 


算法 2.1 选择 排序 
I class Selection 








public static void sort(Comparable[J .a) 
{ LV 将 a[] 按 升序 排列 一 
int N = a.length; 所 /Y. 数组 长 度 
for (Cint i = 0; i < Ni i++) 
{，// 将 a[ 订 和 a[i+1..N] 中 最 小 的 元 素 交 换 
int min = i; /1 最 小 元 素 的 索引 
for (int j = itl; j <N; j++) 
if ClessCa[j], almin])) min = ji 
exch(a, i, min); Dy 


} 二 
// less()、exch()、isSorted() 和 main() 方 法 见 “排序 算法 类 模板 ” 


该 算法 将 第 ;小 的 元 素 放 到 afi] 之 中 。 数 组 的 第 1 个 位 置 的 左边 是 1 个 最 小 的 元 素 目 它们 不 会 再 
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选择 排序 的 轨迹 〈 每 次 交换 后 的 数组 内 容 ) 殉 














2.1.3 ”插入 排序 

通常 人 们 整理 桥牌 的 方法 是 一 张 一 张 的 来 , 将 每 一 张 牌 插入 到 其 他 已 经 有 序 的 牌 中 的 适当 位 置 。 
在 计算 机 的 实现 中 ， 为 了 给 要 插入 的 元 素 腾 出 空间 ， 我 们 需要 将 其 余 所 有 元 素 在 插入 之 前 都 向 右 移 
动 一 位 。 这 种 算法 叫做 插入 排序 ， 实 现 请 见 算法 2.2。 

与 选择 排序 一 样 ， 当 前 索引 左边 的 所 有 元 素 都 是 有 序 的 ， 但 它们 的 最 终 位 置 还 不 确定 ， 为 了 给 
更 小 的 元 素 腾 出 空间 ， 它 们 可 能 会 被 移动 。 但 是 当 索 引 到 达 数 组 的 右 端 时 ， 数 组 排序 就 完成 了 。 

和 选择 排序 不 同 的 是 ， 插 入 排 序 所 需 的 时 间 取决 于 输入 中 元 素 的 初始 顺序 。 例 如 ， 对 一 个 很 大 
且 其 中 的 元 素 已 经 有 序 ( 或 接近 有 序 ) 的 数组 进行 排序 将 会 比 对 随机 顺序 的 数组 或 是 逆序 数组 进行 
排序 要 快 得 多 。 


命题 B。 对 于 随机 排列 的 长 度 为 N 且 主键 不 重复 的 数组 ,平均 情 况 下 插入 排序 需要 ~ Ni/4 次 比 
较 以 及 ~ NV4 次 交换 。 最 坏 情况 下 需要 ~ /2 次 比较 和 ~ N32 次 交换 ， 最 好 情况 下 需要 N-1 
次 比较 和 0 次 交换 。 


证 明 。 和 命题 A 一 样 ， 通 过 一 个 NXN 的 轨迹 表 可 以 很 容易 就 得 到 交换 和 比较 的 次 数 。 最 坏 情 
况 下 对 角 线 之 下 所 有 的 元 来 都 需要 移动 位 置 ， 最 好 情况 下 都 不 需要 。 对 于 随机 排列 的 数组 ， 在 
平均 情况 下 每 个 元 来 都 可 能 向 后 移动 半 个 数组 的 长 度 ， 因 此 交换 总 数 是 对 角 线 之 下 的 元 来 总 数 
的 二 分 之 一 。 

比较 的 总 次 数 是 交换 的 次 数 加 上 一 个 额外 的 项 ， 该 项 为 N 减 去 被 插入 的 元 素 正好 是 已 知 的 最 小 
元 素 的 次 数 。 在 最 坏 情 况 下 (逆序 数组 ) ， 这 一 项 相对 于 总 数 可 以 忽略 不 计 ; 在 最 好 情况 下 ( 数 
组 已 经 有 序 ) ， 这 一 项 等 于 N-1。 


插入 排序 对 于 实际 应 用 中 常见 的 某 些 类 型 的 非 随机 数组 很 有 效 。 例 如 ， 正 如 刚才 所 提 到 的 ， 想 
想 当 你 用 插入 排序 对 一 个 有 序数 组 进行 排序 时 会 发 生 什么 。 插 入 排序 能 够 立即 发 现 每 个 元 素 都 已 经 
在 合适 的 位 置 之 上 , 它 的 运行 时 间 也 是 线性 的 ( 对 于 这 种 数组 , 选择 排序 的 运行 时 间 是 平方 级 别 的 ) 。 
对 于 所 有 主键 都 相同 的 数组 也 会 出 现 相同 的 情况 〈 因此 命题 B 的 条 件 之 一 就 是 主键 不 重复 ) 。 250) 


算法 2.2 插入 排序 

















public class Insertion 
{ 
public static void sort(Comparable[] a) 
{ // 将 a[] 按 升序 排列 
int N = a.length; 
for Cint i = 1; i < N; i++) 
{ // 将 a[i] 插入 到 a[i-1]、a[i-2]、a[i-3]... 之 中 
for (int j = i; j > 0 && less(a[j], a[j-1]); j--) 
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exch(a, j, j-D; 
} 


要 
// less 〇 O、exch()、isSortedC] 和 main() 方 法 见 “排序 算法 类 楼 板 ” 


} 
对 于 0 到 N-1 之 间 的 每 一 个 1, 将 a[i] 与 a[0] 到 a[i-1] 中 比 它 小 的 所 有 元 素 依 次 有 序 地 交换 。 
在 索引 i 由 左 向 右 变化 的 过 程 中 , 它 左 侧 的 元 素 总 是 有 序 的 , 所 以 当 i 到 达 数 组 的 右 端 时 排序 就 完成 了 。 
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插入 排序 的 轨迹 (每 次 插入 后 的 数组 内 容 ) 
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我 们 要 考虑 的 更 一 般 的 情况 是 部 分 有 序 的 数组 。 倒 置 指 的 是 数组 中 的 两 个 顺序 颠倒 的 元 素 。 比 
如 EXAMPLE 中 有 11 对 倒置 ， E-A、X-A、X-M、X-P、X-L、X-E、M-L、M-E、P-L、P-E 
以 及 L-E。 如 果 数 组 中 倒置 的 数量 小 于 数组 大 小 的 某 个 倍数 ， 那 么 我 们 说 这 个 数组 是 部 分 有 序 的 。 
下 面 是 几 种 典型 的 部 分 有 序 的 数组 

口 数组 中 每 个 元 素 距离 它 的 最 终 位 置 都 不 远 

口 一 个 有 序 的 大 数组 接 一 个 小 数组 ; 

口 数组 中 只 有 几 个 元 素 的 位 置 不 正确 。 

插入 排序 对 这 样 的 数组 很 有 效 ， 而 选择 排序 则 不 然 。 事 实 上 ， 当 倒置 的 数量 很 少时 ， 插 入 排序 
很 可 能 比 本 章 中 的 其 他 任何 算法 都 要 快 。 


。 插 入 排序 需要 的 交换 操作 和 数组 中 倒置 的 数量 相同 ， 需 要 的 比较 次 数 大 于 等 于 个 置 的 
数 重 ， 小 二 特 于 倒 量 的 妆 量 加 上 数组 的 大 小 再 减 一。 


都 改变 了 两 个 顺序 类 倒 的 元 来 的 位 置 ， 相 当 于 减少 了 一 对 倒置 ， 当 全 时 数量 为 
成 了。 每 次 交换 都 对 应 着 一 次 比较 ， 且 工 到 N-1 之 间 的 每 个 ;都 可 能 需要 一 次 
1] 没有 达到 数组 的 左 端 时 ) 。 










要 大 幅 提 高 插 人 排序 的 速度 并 不 难 ， 只 需要 在 内 循环 中 将 较 大 的 元 素 都 向 右 移动 而 不 总 是 交换 
两 个 元 素 ( 这 样 访问 数组 的 次 数 就 能 碱 半 ) 。 我 们 把 这 项 改进 留 做 一 个 练习 (请 见 练习 2.1.25) 。 


总 的 来 说 ， 插 入 排序 对 于 部 分 有 序 的 数 
组 十 分 高 效 , 也 很 适合 小 规模 数组 。 这 很 重要 ， 
因为 这 些 类 型 的 数组 在 实际 应 用 中 经 常 出 现 ， 
而 且 它们 也 是 高 级 排序 算法 的 中 间 过 程 。 我 
们 会 在 学 习 高 级 排序 算法 时 再 次 接触 到 插入 
排序 。 


2.1.4 ”排序 算法 的 可 视 化 

在 本 章 中 我 们 会 使 用 一 种 简单 的 图 示 来 帮 ~ 
助 我 们 说 明 排序 算法 的 性 质 。 我 们 没有 使 用 字 
母 、 数 字 或 是 单词 这 样 的 键 值 来 跟踪 排序 的 进 
程 ， 而 使 用 了 棒状 图 ， 并 以 它们 的 高 矮 来 排序 。 
这 种 表示 方法 的 好 处 是 能 够 使 排序 过 程 一 目 
了 然 。 

如 图 2.1.1 所 示 ， 插 人 排序 不 会 访问 索引 
右 侧 的 元 素 ， 而 选择 排序 不 会 访问 索引 左 侧 的 
元 素 。 另 外 ， 在 这 种 可 视 化 的 轨迹 图 中 可 以 看 
到 ， 因 为 插入 排序 不 会 移动 比 被 插入 的 元 素 更 
小 的 元 素 ， 它 所 需 的 比较 次 数 平均 只 有 选择 排 
序 的 一 半 。 

用 我 们 的 StdDraw 库 画 出 一 张 可 视 轨迹 
图 并 不 比 追 踪 一 次 算法 的 运行 轨迹 难 多 少 。 将 
Double 值 排序 ， 并 在 适当 的 时 候 指示 算法 调 
用 show0 方法 ( 和 追踪 算法 的 轨迹 时 一 样 ) ， 
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1 灰色 的 元 素 
没有 被 移动 


ml 7 





黑色 的 元 素 Mh 
参与 了 比较 站 站 


Wh 

Mh 
Ml ll 
山 | 1 
选择 排序 








插入 排序 
图 2.1.1 初级 排序 算法 的 可 视 轨迹 图 ( 另 见 彩 插 ) 


然后 开发 一 个 使 用 StdDraw 来 绘制 棒状 图 而 不 是 打印 结果 的 show() 方法 。 最 复杂 的 部 分 是 设置 y 
轴 的 比例 以 使 轨迹 的 线条 符合 预期 的 顺序 。 请 通过 练习 2.1.18 来 更 好 地 理解 可 视 轨迹 图 的 价值 和 


使 用 。 


将 轨迹 变 成 动画 ， 理 解 起 来 就 更 加 简单 ， 这 样 可 以 看 到 动态 演化 到 有 序 状态 的 过 程 。 产 生 轨迹 
动画 的 过 程 本 质 上 和 上 一 段 所 描述 的 相同 ， 但 不 需要 担心 y 轴 的 问题 ( 只 需 每 次 擦 除 窗口 中 的 内 容 
并 重 绘 棒状 图 即 可 )。 尽 管 我 们 无 法 在 书 中 展现 这 些 动画 , 它们 对 于 理解 算法 的 工作 原理 也 很 有 帮助 ， 


你 能 通过 练习 2.1.17 体会 这 一 点 。 
2.1.5 ”比较 两 种 排序 算法 


现在 我 们 已 经 实现 了 两 种 排序 算法 ， 我 们 很 自然 地 想 知道 选择 排序 (算法 2.1 ) 和 插入 排序 ( 算 
法 2.2 ) 哪 种 更 快 。 这 个 问题 在 学 习 算法 的 过 程 中 会 反复 出 现 ， 也 是 本 书 的 重点 之 一 。 我 们 已 经 在 
第 1 章 中 讨论 过 一 些 基本 的 概念 ,这 里 我 们 第 一 次 用 实践 说 明 我 们 解决 这 个 问题 的 办 法 。 一 般 来 说 ， 
根据 1.4 节 所 介绍 的 方法 ， 我 们 将 通过 以 下 步骤 比较 两 个 算法 : 


口 实现 并 调试 它们 ; 
口 分 析 它 们 的 基本 性 质 ; 
口 对 它们 的 相对 性 能 作出 猜想 ; 
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口 用 实验 验证 我 们 的 猜想 。 

这 些 步骤 都 是 经 过 时 间 检 验 的 科学 方法 ， 只 是 现在 是 运用 在 算法 研究 之 上 。 

现在 , 算法 2.1 和 算法 2.2 表示 已 经 实现 了 第 一 步 ， 命 题 A、 命 题 B 和 命题 C 组 成 了 第 二 步 ， 
下 面 的 性 质 D 将 是 第 三 步 ， 之 后 “比较 两 种 排序 算法 ”的 SortCompare 类 将 会 完成 第 四 步 。 这 些 
行为 都 是 紧密 相关 的 。 

在 这 些 简洁 的 步骤 之 下 是 大 量 的 算法 实现 、 调 试 分 析 和 测试 工作 。 每 个 程序 员 都 知道 只 有 经 过 
长 期 的 调试 和 改进 才能 得 到 这 样 的 代码 ， 每 个 数学 家 都 知道 正确 分 析 的 难度 ， 每 个 科学 家 也 都 知道 
从 提出 猜想 到 设计 并 执行 实验 来 验证 它们 是 多 么 费心 。 只 有 研究 那些 最 重要 的 算法 的 专家 才 会 经 历 
完整 的 研究 过 程 ， 但 每 个 使 用 算法 的 程序 员 都 应 该 了 解 算法 的 性 能 特性 背后 的 科学 过 程 。 

实现 了 算法 之 后 ， 下 一 步 我 们 需要 确定 一 个 适当 的 输入 模型 。 对 于 排序 ， 命 题 A、 命 题 B 和 命 
题 C 用 到 的 自然 输入 模型 假设 数组 中 的 元 素 随机 排序 ， 且 主键 值 不 会 重复 。 对 于 有 很 多 重复 主键 的 
应 用 来 说 ， 我 们 需要 一 个 更 加 复杂 的 模型 。 

如 何 估计 插入 排序 和 选择 排序 在 随机 排序 数组 下 的 性 能 呢 ? 通过 算法 2.1 和 算法 2.2 以 及 命题 
A、 命 题 B 和 命题 C 可 以 发 现 ， 对 于 随机 排序 数组 ， 两 者 的 运行 时 间 都 是 平方 级 别 的 。 也 就 是 说 ， 
在 这 种 输入 下 插入 排序 的 运行 时 间 和 A 乘 以 一 个 小 常数 成 正比 ， 选 择 排序 的 运行 时 间 和 下 乘 以 另 
一 个 小 常数 成 比例 。 这 两 个 常数 的 值 取决 于 所 使 用 的 计算 机 中 比较 和 交换 元 素 的 成 本 。 对 于 许多 数 
据 类 型 和 一 般 的 计算 机 ， 可 以 假设 这 些 成 本 是 相近 的 〈 但 我 们 也 会 看 到 一 些 大 不 相同 的 例外 ) 。 因 
此 我 们 直接 得 出 了 以 下 猜想 。 


性 质 D。 对 于 随机 排序 的 无 重复 主键 的 数组 ， 插 入 排序 和 选择 排序 的 运行 时 间 是 平方 级 别 的 ， 
两 者 之 比 应 该 是 一 个 较 小 的 常数 。 


例证 。 这 个 结论 在 过 去 的 半 个 世纪 中 已 经 在 许多 不 同类 型 的 计算 机 上 经 过 了 验证 。 在 1980 年 
本 书 第 1 版 完成 之 时 插入 排序 就 比 选择 排序 快 一 倍 ， 现 在 仍然 是 这 样 ， 尽 管 那 时 这 些 算法 将 10 
万 条 数据 排序 需要 几 个 小 时 而 现在 只 需要 几 秒 钟 。 在 你 的 计算 机 上 插入 排序 也 比 选 择 排序 快 一 
些 吗 ? 可 以 通过 SortCompare 类 来 检测 。 它 会 使 用 由 命令 行 参数 指定 的 排序 算法 名 称 所 对 应 的 
sort() 方法 进行 指定 次 数 的 实验 (将 指定 大 小 的 数组 排序 ) ， 并 打印 出 所 观察 到 的 各 种 算法 的 
运行 时 间 的 比例 。 


为 了 证 明 这 一 点 ， 我 们 用 
SortCompare ( 见 “ 比 较 两 种 排 
序 算法 ”) 来 做 几 次 实验 。 我 们 Stopwatch timer = new Stopwatch(); 


public static double time(String alg, Comparable[] a) 
{ 


x if (alg.equals("Insertion")) Insertion.sort(a); 

使 用 Stopwatch 来 计时 ， 右 侧 的 if (alg.equals("Selection")) Selection.sort(a); 
time() 函数 的 任务 是 调用 本 章 中 ee ee lb 
(alg.equals("Merge")) Merge.sort(a); 
的 几 种 简单 排序 算法 。 if (alg.equals("Quick")) 0 te) 
随机 数组 的 输入 模型 由 if (alg.equals("Heap")) Heap. sort(a); 


so re 类 中 的 ti 了 return timer.elapsedTimeO; 


Input() 方法 实现 。 这 个 方法 会 
生成 随机 的 Double 值 , 将 它们 排 针对 给 定 输入 , 为 本 章 中 的 一 种 排序 算法 计时 
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序 ， 并 返回 指定 次 测试 的 总 时 间 。 使 用 0.0 至 1.0 之 间 的 随机 Double 值 比 使 用 类 似 于 StdRandom . 
shuffle() 的 库 函数 更 简单 有 效 ， 因 为 这 样 几乎 不 可 能 产生 相等 的 主键 值 ( 请 见 练习 2.5.31) 。 如 
第 1 章 中 所 讨论 的 ， 用 命令 行 参数 指定 重复 次 数 的 好 处 是 能 够 运行 大 量 的 测试 ( 测试 次 数 越 多 ， 每 
遍 测 试 所 需 的 平均 时 间 就 越 接近 于 真实 的 平均 数据 ) 并 且 能 够 减 小 系统 本 身 的 影响 。 你 应 该 在 自己 
的 计算 机 上 用 SortCompare 进行 实验 ,来 了 解 关于 插入 排序 和 选择 排序 的 结论 是 否 成 立 。 


比较 两 种 排序 算法 





public class SortCompare 
是 
public static double time(String alg, Double[] a) 
人 /* 请 见 前 面 的 正文 */ 了 


public static double timeRandomInput(String alg, int N, int T) 
{ // 使 用 算法 1 将 T 个 长 度 为 N 的 数组 排序 
double total = 0.0; 
Double[] a = new Double[N]; 
for (int t = 0; t <T; t++) 
{ // 进行 一 次 测试 ( 生成 一 个 数组 并 排序 ) 
for (int 1 = 0; i < N; i++) 
a[i] = StdRandom.uniform(); 
total += time(alg, a); 
} 
return total; 


public static void main(String[] args) 

{ 
String algl = args[0]; 
String alg2 = args[1]; 
int N = Integer.parseInt(args[2]); 
int T = Integer.parseInt(args[3]); 
double tl = timeRandomInput(a191，N，T); // 算法 1 的 总 时 间 
double t2 = timeRandomInput(a192，N，T); // 算法 2 的 总 时 间 
StdOut.printf( “For %d random Doubles\n =%s is” , N, algl); 
StdOut.printf( “ %.1f times faster than %s\n” , t2/t1, alg2); 

} 

} 


这 个 用 例会 运行 由 前 两 个 命令 行 参数 指定 的 排序 算法 ， 对 长 度 为 N ( 由 第 三 个 参数 指定 ) 的 Double 
型 随机 数组 进行 排序 ， 元 素 值 均 在 0.0 到 1.0 之 间 ， 重复 T 次 由 第 四 个 参数 指定 ) ， 然 后 输出 总 运行 时 
间 的 比例 。 


% java SortCompare Insertion Selection 1000 100 
For 1000 random Doubles 
Insertion is 1.7 times faster than Selection 本 
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我 们 故意 将 性 质 D 描述 得 不 够 明确 一 一 没有 说 明 那个 小 常量 的 值 ， 以 及 对 比较 和 交换 的 成 本 相 
近 的 假设 ， 这 样 性 质 D 才能 广泛 适用 于 各 种 情况 。 可 能 的 话 ， 我 们 会 尽量 用 这 样 的 语言 来 抓 住 我 们 
所 研究 的 每 个 算法 的 性 能 的 本 质 。 如 第 1 章 中 讨论 的 那样 我 们 提出 的 每 个 性 质 都 需要 在 特定 的 场 
景 中 进行 科学 测试 ， 也 许 还 需要 用 一 个 基于 相关 命题 (数学 定理 ) 的 猜想 进行 补充 。 
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对 于 实际 应 用 ， 还 有 一 个 很 重要 的 步骤 ， 那 就 是 用 实际 数据 在 实验 中 验证 我 们 的 猜想 。 我 们 会 
在 2.5 节 和 练习 中 再 考虑 这 一 点 。 在 这 种 情况 下 ， 当 主键 有 重复 或 是 排列 不 随机 ， 性 质 D 就 可 能 会 
不 成 立 。 可 以 使 用 StdRandom.shuffle() 来 将 一 个 数组 打 乱 ， 但 有 大 量 重复 主键 的 情况 则 需要 更 
加 细致 的 分 析 。 

我 们 对 算法 分 析 的 讨论 是 抛砖引玉 ， 而 非 盖 棺 定论 。 如 果 你 想到 了 关于 算法 性 能 的 其 他 问题 
可 以 用 SortCompare 等 工具 来 研究 它 ， 后 面 的 练习 为 你 提供 了 许多 机 会 。 

插入 排序 和 选择 排序 的 性 能 比较 就 讨论 到 这 里 ， 还 存在 许多 比 它们 快 成 千 上 万 倍 的 算法 ， 我 们 
对 此 会 更 感 兴趣 。 当 然 ， 仍 然 有 必要 学 习 这 些 初级 算法 ， 因 为 

口 它们 帮助 我 们 建立 了 一 些 基本 的 规则 ; 

口 它们 展示 了 一 些 性 能 基准 ; 

口 在 某 些 特殊 情况 下 它们 也 是 很 好 的 选择 ; 

口 它们 是 开发 更 强大 的 排序 算法 的 基石 。 

因此 ， 不 止 是 排序 ， 对 于 本 书 中 的 每 个 问题 我 们 都 会 沿用 这 种 方式 ， 首 先 学 习 的 就 是 最 初级 的 
相关 算法 。SortCompare 这 样 的 程序 对 于 这 种 渐进 式 的 算法 研究 十 分 重要 。 每 一 步 ， 我 们 都 能 用 这 
类 程序 来 了 解 新 的 或 是 改进 后 的 算法 的 性 能 是 否 产生 了 预期 的 进步 。 


2.1.6 希 尔 排序 
为 了 展示 初级 排序 算法 性 质 的 价值 ， 接 下 来 我 们 将 学 习 一 种 基于 插入 排序 的 快速 的 排序 算法 。 
对 于 大 规模 乱 序 数组 插入 排序 很 慢 ， 因 为 它 只 会 交换 相 邻 的 元 素 ， 因 此 元 素 只 能 一 点 一 点 地 从 数组 
的 一 端 移动 到 另 一 端 。 例 如 ， 如 果 主 键 最 小 的 元 素 正好 在 数组 的 尽头 ， 要 将 它 挪 到 正确 的 位 置 就 需 
要 NI 次 移动 。 希 尔 排序 为 了 加 快速 度 简单 地 改进 了 插入 排序 ， 交 换 不 相 邻 的 元 素 以 对 数组 的 局 部 
进行 排序 ， 并 最 终 用 插入 排序 将 局 部 有 序 的 数组 排序 。 
希 尔 排 序 的 思想 是 使 数组 中 任意 间隔 为 h 的 元 素 都 是 有 序 的 。 这 样 的 数组 被 称 为 h 有 序数 组 。 换 
名 话说， 一 个 h 有 序数 组 就 是 h 个 互相 独立 的 有 序数 组 编织 在 一 起 组 成 的 一 个 数组 ( 见 图 2.1.2) 。 
在 进行 排序 时 ， 如 果 h 很 大 ， 我 们 就 能 将 元 素 移动 到 很 远 的 地 方 ， 为 实现 更 小 的 h 有 序 创造 方便 。 用 
这 种 方式 ， 对 于 任意 以 1 结尾 的 h 序列 ， 我 们 都 能 够 将 数组 排序 。 这 就 是 希 尔 排序 。 算 法 2.3 的 实现 
使 用 了 序列 12 ( 31) ， 从 N3 开始 递减 至 1。 我 们 把 这 个 序列 称 为 递增 序列 。 算 法 2.3 实时 计算 了 
它 的 递增 序列 ， 另 一 种 方式 是 将 递增 序列 存储 在 一 个 数组 中 。 
4 
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图 2.1.2 一 个 h 有 序 教 组 即 一 个 由 h 个 有 序 子 数组 组 成 的 数组 


实现 希 尔 排序 的 一 种 方法 是 对 于 每 个 h， 用 插入 排序 将 h 个 子 数组 独立 地 排序 。 但 因为 子 数组 
是 相互 独立 的 ， 一 个 更 简单 的 方法 是 在 h- 子 数组 中 将 每 个 元 素 交换 到 比 它 大 的 元 素 之 前 去 (将 比 它 
大 的 元 素 向 右 移动 一 格 ) 。 只 需要 在 插入 排序 的 代码 中 将 移动 元 素 的 距离 由 1 改 为 h 即 可 。 这 样 ， 希 
尔 排序 的 实现 就 转化 为 了 一 个 类 似 于 插入 排序 但 使 用 不 同 增 量 的 过 程 。 

希 尔 排序 更 高 效 的 原因 是 它 权 衡 了 子 数组 的 规模 和 有 序 性 。 排 序 之 初 ， 各 个 子 数组 都 很 短 ， 排 . 














_ 序 之 后 了 数组 都 是 部 分 有 序 的 ， 这 两 种 情况 都 很 适合 桩 和 排序 。 子 数组 部 分 有 序 的 程度 取决 于 递增 






序列 的 选择 。 透 彻 理解 希 尔 排序 的 性 能 至 今 
确 描述 其 对 于 乱 序 的 数组 的 性 能 特征 的 排序 方法 


”算法 2.3 希 尔 排序 守 


public class She11 二 
{ 和 ea 
public static void sort(Comparable[] 3) -一 
{ // 将 a[] 按 升序 排列 
int N = a.length; 
int h = 1; 
while (Ch < N/3) h = 3*h + 1;-//T1, 4, 13,-40, 121, 364;.1093, ... 
while Ch >=D) 
{“// 将 数组 变 为 h 有 序 并 
for Cint 1 = h; i < N; i++r) 
{ // 将 afi] 栖 入 到 ari-h] ，a[i-2vh]，aEi-3*h]..- 之 中 - 
for (int j = i; j >= h &8 lessCa[j], a[j-h]); j -= h) 
exch(a, j, j-h); 





} 
h = h/3; 
堆放 a dy - 
} 
// 1essO、exchG)、isSorted() 和 main() 方 法 见 “排序 算法 类 手板 ” 
3 
如 果 我 们 在 插入 排序 (算法 22 ) 中 加 入 一 个 外 循环 来 将 按照 递增 序列 递 碱 ， 我 们 就 能 得 到 这 个 
简洁 的 希 尔 排序 。 增 幅 h 的 初始 值 是 数组 长 度 乘 以 一 个 常数 因子 ， 最 小 为 1。 = 


% java SortCompare She11 Insertion 100000 100 
For 100000 random Doubles 
She11 is 600 times faster than Insertion 
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希 尔 排序 的 轨迹 《每 遍 排序 后 的 数组 内 容 ) 





如 何 选择 递增 序列 呢 ? 要 回答 这 个 问题 并 不 简单 。 算法 的 性 能 不 仅 取决 于 h， 还 取决 于 h 之 间 
的 数学 性 质 ， 比 如 它 但 的 公 因 子 等 。 有 很 多 论文 研究 了 各 种 不 同 的 递增 序列 ， 但 都 无 法 证 明 某 个 序 
列 是 最 好 的 ”> 算法 23 中 递增 序列 的 计算 和 使 用 都 很 简单 ， 和 复杂 递增 序列 的 性 能 接近 。 但 可 
以 证 明 复 杂 的 序列 在 最 坏 情况 下 的 性 能 要 好 于 我 们 所 使 用 的 递增 序列 。 更 加 优秀 的 递增 序列 有 待 我 
们 去 发 现 。 

和 选择 排序 以 及 插入 排序 形成 对 比 的 是 ， 希 尔 排序 也 可 以 用 于 大 型 数组 。 它 对 任意 排序 ( 不 一 定 
是 随机 的 ) 的 数组 表现 也 很 好 。 实 际 上 ， 对 于 一 个 给 定 的 递增 序列 ， 构 造 一 个 使 希 尔 排序 运行 缓慢 的 
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数组 并 不 容易 。 希 尔 排序 的 轨迹 如 图 2.1.3 所 示 ， 可 视 轨迹 如 图 2.1.4 所 示 。 
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结果 人 
0 图 2.1.3 希 尔 排序 的 详细 轨迹 (各 种 插入 ) 











通过 SortCompare 可 以 看 到 ， 希 尔 排序 比 插入 排序 和 选择 排序 要 快 得 多 ， 并 且 数 组 越 大 ， 优 
势 越 大 。 在 继续 学 习 之 前 ,请 在 你 的 计算 机 上 用 SortCompare 比较 一 下 希 尔 排序 和 插入 排序 以 及 
选择 排序 的 性 能 ， 数 组 的 大 小 按照 2 的 竺 次 递增 ( 见 练习 2.1.27 ) 。 你 会 看 到 希 尔 排 序 能 够 解决 一 
些 初级 排序 算法 无 能 为 力 的 问题 。 这 个 例子 是 我 们 第 一 次 用 实际 应 用 说 明 一 个 贯穿 本 书 的 重要 理念: 
通过 提升 速度 来 解决 其 他 方式 无 法 解决 的 问题 是 研究 算法 的 设计 和 性 能 的 主要 原因 之 一 

研究 希 尔 排序 性 能 需要 的 数学 论证 超出 了 本 书 如 果 你 不 相信 ， 可 以 从 证 明 下 面 这 一 点 开 
始 : 当 一 个 “h 有 序 ” 的 数组 按照 增幅 k 排序 之 后 ， 它 仍然 是 “h 有 序 ” 的 。 至 于 算法 2.3 的 性 能 ， 
目前 最 重要 的 结论 是 它 的 运行 时 间 达 不 到 平方 级 别 。 例 如 ， 已 知 在 最 坏 的 情况 下 算法 23 的 比较 次 数 
和 NM" 成 正比 。 有 意思 的 是 ， 由 插入 排序 到 希 尔 排序 ， 一 个 小 小 的 改变 就 突破 了 平方 级 别 的 运行 时 间 
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的 屏障 。 这 正 是 许多 算法 设计 问题 想 要 达到 的 目标 。 
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图 2.1.4 和 希 尔 排序 的 可 视 轨迹 


在 输入 随机 排序 数组 的 情况 下 ， 我 们 在 数学 上 还 不 知道 希 尔 排序 所 需要 的 平均 比较 次 数 。 人 们 
发 明了 很 多 递增 序列 来 渐进 式 地 改进 最 坏 情况 下 所 需 的 比较 次 数 ( Ne, N%', N4w%… ) ， 但 这 些 结论 
大 多 只 有 学 术 意义 ， 因 为 对 于 实际 应 用 中 的 来 说 它们 的 递增 序列 的 生成 函数 ( 以 及 与 W 乘 以 一 
个 常数 因子 ) 之 间 的 区 别 并 不 明显 。 

在 实际 应 用 中 ， 使 用 算法 23 中 的 递增 序列 基本 就 足够 了 (或 者 是 本 节 最 后 的 练习 中 提供 的 一 个 递 
增 序列 ， 它 可 能 可 以 将 性 能 改进 20% ~ 40% ) 。 另 外 ， 很 容易 就 能 验证 下 面 这 个 猜想 。 





性 质 E。 使 用 递增 序列 1, 4, 13, 40, 121, 364… 的 希 尔 排序 所 需 的 比较 次 数 不 会 超出 NN 的 若干 倍 
乘 以 递增 序列 的 长 度 。 


例证 。 记 录 算 法 2.3 中 比较 的 数量 并 将 其 除 以 使 用 的 序列 长 度 是 一 道 简单 的 练习 ( 请 见 练习 
2.1.12).。 大 量 的 实验 证 明 平均 每 个 增幅 所 带 来 的 比较 次 数 约 为 Yis， 但 只 有 在 N 很 大 的 时 候 这 
个 增长 幅度 才 会 变 得 明显 。 这 个 性 质 似乎 也 和 输入 模型 无 关 。 


有 经 验 的 程序 员 有 时 会 选择 希 尔 排序 ， 因 为 对 于 中 等 大 小 的 数组 它 的 运行 时 间 是 可 以 接受 的 。 
它 的 代码 量 很 小 ， 且 不 需要 使 用 额外 的 内 存 空间 。 在 下 面 的 几 节 中 我 们 会 看 到 更 加 高 效 的 算法 ， 但 
除了 对 于 很 大 的 入， 它们 可 能 只 会 比 希 尔 排序 快 两 倍 ( 可 能 还 达 不 到 ) ， 而 且 更 复杂 。 如 果 你 需要 
解决 一 个 排序 问题 而 又 没有 系统 排序 函数 可 用 (例如 直接 接触 硬件 或 是 运行 于 嵌入 式 系统 中 的 代 
码 ) ， 可 以 先 用 希 尔 排序 ， 然 后 再 考虑 是 否 值得 将 它 替 换 为 更 加 复杂 的 排序 算法 。 Ee 
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问 “排序 看 起 来 是 个 很 简单 的 问题 ， 我 们 用 计算 机 不 是 可 以 做 很 多 更 有 意思 的 事情 吗 ? 

答 也 许 吧 ,， 但 快速 的 排序 算法 才 使 得 那些 更 有 意思 的 事情 成 为 可 能 。 在 2.5 节 以 及 全 书 的 其 他 章节 你 
都 可 以 找到 很 多 这 样 的 例子 。 排 序 算法 今天 仍然 值得 我 们 学 习 是 因为 它 易于 理解 ， 你 能 从 中 领会 到 
许多 精妙 之 处 。 

问 为 什么 有 这 么 多 排序 算法 ? 

答 原因 之 一 是 许多 排序 算法 的 性 能 都 和 输入 模型 有 很 大 的 关系 ， 因 此 不 同 的 算法 适用 于 不 同 应 用 场景 中 的 
不 同 输入 。 例 如 ， 对 于 部 分 有 序 和 小 规模 的 数组 应 该 选择 插入 排序 。 其 他 限制 条 件 ， 例 如 空间 和 重复 的 
主键 ， 也 都 是 需要 考虑 的 因素 。 我 们 将 会 在 2.5 节 中 再 次 讨论 这 个 问题 。 

问 为 什么 要 使 用 1ess() 和 exch() 这 些 不 起 眼 的 辅助 函数 ? 

答 ”它们 抽象 了 所 有 排序 算法 都 会 用 到 的 共同 操作 ， 这 种 抽象 使 得 代码 更 便于 理解 。 而 且 它们 增强 了 代 
码 的 可 移植 性 。 例 如 ， 算 法 2.1 和 算法 2.2 中 的 大 部 分 代码 在 其 他 几 种 编程 语言 中 也 是 可 以 执行 的 。 
即使 是 在 Java 中 ， 只 要 将 less0) 实现 为 v < w， 这 些 算法 的 代码 就 可 以 将 不 支持 Comparable 接 
口 的 基本 数据 类 型 排序 了 。 

间 ” 当 我 运行 SortCompare 时 ， 每 次 的 结果 都 不 一 样 (而 且 和 书 上 的 也 不 相同 ) ， 为 什么 ? 

答 对 于 初学 者 ， 你 的 计算 机 和 我 们 的 计算 机 不 同 ， 操 作 系统 、Java 运行 时 环境 等 都 不 一 样 。 这 些 不 同 
可 能 导致 算法 代码 生成 的 机 器 码 不 同 。 每 次 运行 所 得 结果 不 同 的 原因 可 能 在 于 当时 运行 的 其 他 程序 
或 是 很 多 其 他 原因 。 大 量 的 重复 实验 可 以 淡化 这 种 干扰 ， 我 们 的 经 验 是 现 如 今 算法 性 能 的 微小 差异 
很 难 观察 。 这 就 是 我 们 要 关注 较 大 差异 的 原因 。 


围 练 


2.1.1 按照 算法 2.1 所 示 轨迹 的 格式 给 出 选择 排序 是 如 何 将 数组 EA SY Q UE ST 工 ON 排序 的 。 

2.1.2 在 选择 排序 中 ， 一 个 元 素 最 多 可 能 会 被 交换 多 少 次 ? 平均 可 能 会 被 交换 多 少 次 ? 

2.1.3 构造 一 个 含有 N 个 元 素 的 数组 ， 使 选择 排序 (算法 2.1 ) 运行 过 程 中 ar[j] < a[min]) (由 此 min 
会 不 断 更 新 ) 成 功 的 次 数 最 大 。 

2.1.4 按照 算法 2.2 所 示 轨 迹 的 格式 给 出 插入 排序 是 如 何 将 数组 E AS Y Q U E Ss T I ON 排序 的 。 

2.1.5 构造 一 个 含有 N 个 元 素 的 数组 ， 使 插入 排序 (算法 2.2 ) 运行 过 程 中 内 循环 (for ) 的 两 个 判断 结 
果 总 是 假 。 

2.1.6 在 所 有 的 主键 都 相同 时 ， 选 择 排序 和 插 人 排序 谁 更 快 ? 

2.1.7 ”对 于 逆序 数组 ， 选 择 排序 和 插入 排序 谁 更 快 ? 

2.1.8 假设 元 素 只 可 能 有 三 种 值 ， 使 用 插入 排序 处 理 这 样 一 个 随机 数组 的 运行 时 间 是 线性 的 还 是 平方 级 
别 的 ? 或 是 介 于 两 者 之 间 ? 

2.1.9 按照 算法 2.3 所 示 轨迹 的 格式 给 出 希 尔 排序 是 如 何 将 数组 E ASYSHELLSORT QUE 
STION 排序 的 。 

2.1.10 在 希 尔 排序 中 为 什么 在 实现 h 有 序 时 不 使 用 选择 排序 ? 

2.1.11 将 希 尔 排序 中 实时 计算 递增 序列 改 为 预先 计算 并 存储 在 一 个 数组 中 。 

2.1.12 令 希 尔 排序 打印 出 递增 序列 的 每 个 元 素 所 带 来 的 比较 次 数 和 数组 大 小 的 比值 。 编写 一 个 测试 用 
例 对 随机 Double 数组 进行 希 尔 排序 ， 验 证 该 值 是 一 个 小 常数 ， 数 组 大 小 按照 10 的 短 次 递增 ， 
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不 小 于 100。 EG 


2.1.13 纸牌 排序 。 说 说 你 会 如 何 将 一 副 扑克 牌 按 花 色 排 序 ( 花色 顺序 是 黑 桃 、 红 桃 、 梅 花 和 方 片 ) ， 
限制 条 件 是 所 有 牌 都 是 背面 朝 上 排 成 一 列 ， 而 你 一 次 只 能 翻 看 两 张 牌 或 者 交换 两 张 牌 ( 保持 背 
面 朝 上 ) 。 

2.1.14 ”出 列 排序 。 说 说 你 会 如 何 将 一 副 扑克 牌 排序 ， 限 制 条 件 是 只 能 查看 最 上 面 的 两 张 牌 ， 交 换 最 上 
面 的 两 张 牌 ,或 是 将 最 上 面 的 一 张 牌 放 到 这 探 牌 的 最 下 面 。 

2.1.15 昂贵 的 交换 。 一 家 货运 公司 的 一 位 职员 得 到 了 -项 任务 ,需要 将 若干 大 货 箱 按照 发 货 时 间 摆 放 。 
比较 发 货 时 间 很 容易 (对照 标签 即 可 ) ， 但 将 两 个 货 箱 交 换 位 置 则 很 困难 ( 移动 麻烦 ) 。 仓 库 
已 经 快 满 了 ， 只 有 一 个 空闲 的 仓位 。 这 位 职员 应 该 使 用 哪 种 排序 算法 呢 ? 

2.1.16 验证。 编写 一 个 check() 方法 ， 调 用 sortQ 对 任意 数组 排序 。 如 果 排 序 成 功 而 且 数组 中 的 所 
有 对 象 均 没有 被 修改 则 返回 true， 否 则 返回 false。 不 要 假设 sort() 只 能 通过 exch() 来 移动 
数据 ， 可 以 信任 并 使 用 Arrays.sortO 。 

2.1.17 动画。 修改 插 人 排序 和 选择 排序 的 代码 ， 使 之 将 数组 内 容 绘制 成 正文 中 所 示 的 棒状 图 。 在 每 一 
轮 排序 后 重 绘图 片 来 产生 动画 效果 ， 并 以 一 张 “ 有 序 ” 的 图 片 作为 结束 ， 即 所 有 圆 棒 均 已 按照 
高 度 有 序 排列 。 提 示 : 使 用 类 似 于 正文 中 的 用 例 来 随机 生成 Double 值 ， 在 排序 代码 的 适当 位 置 
调用 show() 方法 ， 并 在 show() 方法 中 清理 画布 并 绘制 棒状 图 。 

2.1.18 可 视 轨迹 。 修 改 你 为 上 一 题 给 出 的 解答 ， 为 插入 排序 和 选择 排序 生成 和 正文 中 类 似 的 可 视 轨迹 。 
提示 : 使 用 setYscale() 本 数 是 一 个 明智 的 选择 。 附 加 题 : 添加 必要 的 代码 ， 与 正文 中 的 图 片 
一 样 用 红色 和 灰色 强调 不 同 角色 的 元 素 。 

2.1.19 项 尔 排序 的 最 坏 情 况 。 用 1 到 100 构造 一 个 含有 100 个 元 素 的 数组 并 用 希 尔 排序 和 递增 序列 1 4 
13 40 对 其 排序 ,使 比较 的 次 数 尽 可 能 多 。 

2.1.20 项 尔 排序 的 最 好 情况 。 最 好 情况 是 什么 ? 证 明 你 的 结论 。 265 

2.1.21 可 比较 的 交易 。 用 我 们 的 Date 类 ( 请 见 2.1.1.4 节 ) 作为 模板 扩展 你 的 Transaction 类 (请 
见 练习 1.2.13 ) ， 实 现 Comparable 接口 ， 使 交易 能 够 按照 金额 排序 。 
解答 : 


public class Transaction implements Comparable<Transaction> 








private final double amount; 
public int compareTo(Transaction that) 


if (this.amount > that.amount) return +1; 
if (this.amount < that.amount) return -1; 
return 0; we 


2.1.22 事务 排序 测试 用 例 。 编 写 一 个 SortTransaction 类 ， 在 静态 方法 main() 中 从 标准 输入 读 取 一 
系列 事务 .将 它们 排序 并 在 标准 输出 中 打印 结果 (请 见 练习 13.17) 。 
1 





168 > 第 2 章 排序 





266| 











public class SortTransactions 


public static Transaction[] readTransactions() 
{ // 请 见 练习 1.3.17 } 

public static void main(String[] args) 

和 


Transaction[] transactions = readTransactions(); 
She11.sort(transactions); 
for (Transaction t : transactions) 

StdOut .println(t); 
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2.1.31 


纸牌 排序 。 请 几 位 朋友 分 别 将 一 副 扑克 牌 排序 ( 见 练习 2.1.13 ) 。 仔 细 观 察 并 记录 他 们 所 使 用 的 
方法 。 
播 入 排序 的 哨兵 。 在 插 人 排序 的 实现 中 先 找 出 最 小 的 元 素 并 将 其 置 于 数组 的 最 左边 ， 这 样 就 能 
去 掉 内 循环 的 判断 条 件 j>0。 使 用 SortCompare 来 评估 这 种 做 法 的 效果 。 注 意 : 这 是 一 种 常见 
的 规避 边界 测试 的 方法 ， 能 够 省 略 判断 条 件 的 元 素 通常 被 称 为 哨兵 。 
不 需要 交换 的 插入 排序 。 在 插入 排序 的 实现 中 使 较 大 元 素 右 移 一 位 只 需要 访问 一 次 数组 ( 而 不 
用 使 用 exch() ) 。 使 用 SortCompare 来 评估 这 种 做 法 的 效果 。 
原始 数据 类 型 。 编 写 一 个 能 够 处 理 int 值 的 插 人 排序 的 新 版 本 , 比较 它 和 正文 中 所 给 出 的 实现 ( 能 
够 隐 式 地 用 自动 装 箱 和 拆 箱 转换 Integer 值 并 排序 ) 的 性 能 。 
项 尔 排序 的 用 时 是 次 平方 级 的 。 在 你 的 计算 机 上 用 SortCompare 比较 希 尔 排序 和 插 人 排序 以 及 
选择 排序 。 测 试 数组 的 大 小 按照 2 的 者 次 递增 ， 从 128 开始 。 

相等 的 主键 。 对 于 主键 仅 可 能 取 两 种 值 的 数组 ， 评估 和 验证 摘 人 排序 和 选择 排序 的 性 甬 ， 假设 
两 种 主键 值 出 现 的 概率 相同 。 
项 尔 排序 的 递增 序列 。 通 过 实验 比较 算法 2.3 中 所 使 用 的 递增 序列 和 递增 序列 1，5，19，41， 
109，209，505，929，2161，3905，8929，16 001，36 289，64 769，146 305，260 609 ( 这 是 通 
过 序列 9x 4-9x241 和 人 -3 x24+1 综合 得 到 的 ) 。 可 以 参考 练习 2.1.11。 
几何 级 数 递增 序列 。 通 过 实验 找到 一 个 :， 使 得 对 于 大 小 为 N=105 的 任意 随机 数组 ， 使 用 递增 序 
列 1, ,LJ,L?J, Lt], … 的 希 尔 排序 的 运行 时 间 最 短 。 给 出 你 能 找到 的 三 个 最 佳 1 值 以 及 相 
应 的 递增 序列 。 
以 下 练习 描述 的 是 各 种 用 于 评估 排序 算法 的 测试 用 例 。 它 们 的 作用 是 用 随机 数据 帮助 你 增进 对 
性 能 特性 的 理解 。 随 着 命令 行 指定 的 实验 次 数 的 增 大 ， 可 以 和 SortCompare 一 样 在 它们 中 使 用 
time() 函数 来 得 到 更 精确 的 结果 。 在 以 后 的 几 节 中 我 们 会 使 用 这 些 练习 来 评估 更 加 复杂 的 算法 。 
双 倍 测试 。 编 写 一 个 能 够 对 排序 算法 进行 双 傍 测 试 的 用 例 。 数 组 规模 N 的 起 始 值 为 1 000， 排序 
后 打印 N、 估 计 排 序 用 时 、 实 际 排序 用 时 以 及 在 N 增 倍 之 后 两 次 用 时 的 比例 。 用 这 段 程序 验证 在 
随机 输入 模型 下 插入 排序 和 选择 排序 的 运行 时 间 都 是 平方 级 别 的 。 对 希 尔 排序 的 性 能 作出 猜想 
并 验证 你 的 猜想 。 
运行 时 间 曲 线 图 。 编 写 一 个 测试 用 例 ， 使 用 StdDraw 在 各 种 不 同 规模 的 随机 输入 下 将 算法 的 平 
均 运 行 时 间 绘 制 成 一 张 曲线 图 。 可 能 需要 添加 ~- 两 个 命令 行 参 数 ,请 尽量 设计 -- 个 实用 的 工具 。 
分 布 图 。 对 于 你 为 练习 2.1.33 给 出 的 测试 用 例 ， 在 一 个 无 穷 循 环 中 调用 sort0) 方法 将 由 第 三 个 


2.1.34 


2.1.35 


2.1.36 


2.1.37 


2.1.38 
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命令 行 参数 指定 大 小 的 数组 排序 ， 记 录 每 次 排序 的 用 时 并 使 用 StdDraw 在 图 上 画 出 所 有 平均 运 
行 时 间 ， 应 该 能 够 得 到 一 张 运行 时 间 的 分 布 图 。 

罕见 情况 。 编 写 一 个 测试 用 例 ， 调 用 sortQ 方法 对 实际 应 用 中 可 能 出 现 困难 或 极端 情况 的 数组 
进行 排序 。 比 如 ， 数 组 可 能 已 经 是 有 序 的 ， 或 是 逆序 的 ， 数 组 的 所 有 主键 相同 ， 数 组 的 主键 只 
有 两 种 值 ， 大 小 为 0 或 是 1 的 数组 。 

不 均匀 的 概率 分 布 。 编 写 一 个 测试 用 例 ， 使 用 非 均匀 分 布 的 概率 来 生成 随机 排列 的 数据 ， 包 括 : 
口 高 斯 分 布 ; 

口 泊 松 分 布 ; 

口 几何 分 布 ; 

口 离散 分 布 (一 种 特殊 情况 请 见 练习 2.1.28 ) 。 

评估 并 验证 这 些 输入 数据 对 本 节 讨 论 的 算法 的 性 能 的 影响 。 

不 均匀 的 数据 。 编 写 一 个 测试 用 例 ， 生 成 不 均匀 的 测试 数据 ， 包 括 : 

口 一 半数 据 是 0， 一 半 是 1; 

口 一 半数 据 是 0，1/4 是 1，14 是 2， 以 此 类 推 ; 

口 一 半数 据 是 0， 一 半 是 随机 int 值 。 

评估 并 验证 这 些 输 入 数据 对 本 节 讨 论 的 算法 的 性 能 的 影响 。 

部 分 有 序 。 编 写 一 个 测试 用 例 ， 生 成 部 分 有 序 的 数组 ， 包 括 : 

口 95% 有 序 ， 其 余部 分 为 随机 值 ; 

口 所 有 的 元 素 和 它们 的 正确 位 置 的 距离 都 不 超过 10; 

口 5% 的 元 素 随机 分 布 在 整个 数组 中 ， 剩 下 的 数据 都 是 有 序 的 。 

评估 并 验证 这 些 输入 数据 对 本 节 讨论 的 算法 的 性 能 的 影响 。 

不 同类 型 的 元 素 。 编 写 一 个 测试 用 例 , 生成 由 多 种 数据 类 型 元 素 组 成 的 数组 , 元素 的 主键 值 随机 ， 
包括 : 

口 每 个 元 素 的 主键 均 为 String 类 型 ( 至 少 长 10 个 字符 ) ， 并 含有 一 个 double 值 ; 

口 每 个 元 素 的 主键 均 为 double 类 型 ， 并 含有 10 个 String 值 ( 每 个 都 至 少 长 10 个 字符 ) ; 

口 每 个 元 素 的 主键 均 为 int 类 型 ， 并 含有 一 个 int[20] 值 

评估 并 验证 这 些 输 入 数据 对 本 节 讨论 的 算法 的 性 能 的 影响 。 
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2.2 .归并 排序 


在 本 节 中 我 们 所 讨论 的 算法 都 基于 归并 这 个 简单 的 操作 ， 即 将 两 个 有 序 的 数组 归并 成 一 个 更 大 
的 有 序数 组 。 很 快 人 们 就 根据 这 个 操作 发 明了 一 种 简单 的 递归 排序 算法 : 归并 排序 。 要 将 一 个 数组 
排序 ， 可 以 先 (递归 地 ) 将 它 分 成 两 半分 别 排序 ， 然 后 将 结果 归并 起 来 。 你 将 会 看 到 ， 归 并 排序 最 
吸引 人 的 性 质 是 它 能 够 保证 将 任意 长 度 为 N 的 数组 排序 所 需 时 间 和 MogN 成 正比 ; 它 的 主要 缺点 
则 是 它 所 需 的 额外 空间 入 成 正比 。 简 单 的 归并 排序 如 图 2.2.1 所 示 。 


输入 NM ER 5 OE 痪 [7 相生 了 

将 左 半 部 分 排序 E E G RRS 
将 右 半 部 分 排序 让 
RRS 


rT 
归并 结果 A E EEEGLMNMOP i 


图 2.2.1 归并 排序 示意 图 


2.2.1 原 地 归并 的 抽象 方法 

实现 归并 的 一 种 直截了当 的 办 法 是 将 两 个 不 同 的 有 序数 组 归并 到 第 三 个 数组 中 ， 两 个 数组 中 的 
元 素 应 该 都 实现 了 Comparable 接口 。 实 现 的 方法 很 简单 ， 创 建 一 个 适当 大 小 的 数组 然后 将 两 个 输 
人 数组 中 的 元 素 一 个 个 从 小 到 大 放 人 这 个 数组 中 。 

但 是 ， 当 用 归并 将 一 个 大 数组 排序 时 ， 我 们 需要 进行 很 多 次 归并 ， 因 此 在 每 次 归并 时 都 创建 一 
个 新 数组 来 存储 排序 结果 会 带 来 问题 。 我 们 更 希望 有 一 种 能 够 在 原 地 归并 的 方法 ， 这 样 就 可 以 先 将 
前 半 部 分 排序 ， 再 将 后 半 部 分 排序 ， 然 后 在 数组 中 移动 元 素 而 不 需要 使 用 额外 的 空间 。 你 可 以 先 停 
下 来 想 想 应 该 如 何 实现 这 一 点 ， 乍 一 看 很 容易 做 到 ， 但 实际 上 已 有 的 实现 都 非常 复杂 ， 尤 其 是 和 使 
用 额外 空间 的 方法 相 比 。 

尽管 如 此 ， 将 原 地 归并 抽象 化 仍然 是 有 帮助 的 。 与 之 对 应 的 是 我 们 的 方法 签名 mergeCa，1o， 
mid，.hi)， 它 会 将 子 数组 a[1o. .mid] 和 a[mid+1. .hi] 归并 成 一 个 有 序 的 数组 并 将 结果 存放 在 
a[1o. .hi] 中 。 下 面 的 代码 只 用 几 行 就 实现 了 这 种 归并 。 它 将 涉及 的 所 有 元 素 复制 到 一 个 辅助 数组 
中 ， 再 把 归并 的 结果 放 回 原 数组 中 。 实 现 的 另 一 种 方法 请 见 练习 2.2.10。 


原 地 归并 的 抽象 方法 


public static void merge(Comparable[] a, int 1o，int mid, int hi) 
{ // 将 a[lo..mid] 和 a[mid+1..hi] 归并 
int i = 1o, j = mid+1; 


for Cint k = lo; k <= hiy k++) // 将 a[10..hi] 复 制 到 aux[1o..hi] 
aux[k] = a[k]; 





for Cint k = 10; k <= hi; k++) // 归并 回 到 ar[1o..hi] . 






if (i > mid) a[k] = aux[j++]; 
else if Cj > hi ) a[k] = aux[i++]; 
else if ClessCaux[j], aux[i])) afk] = aux[j++]; = 


else a[k] = auxEi++]; <y 
" 

该 方法 先 将 所 有 元 素 复 制 到 aux[] 中 ， 然后 再 归并 回 a[] 中 。 方法 在 归并 时 (第 二 个 for 循 环 》 
进行 了 4 个 条 件 判断 : 左 半 边 用 尽 ( 取 右 半边 的 元 素 ) 、 右 半边 用 尽 ( 取 左 半 边 的 元 素 )、 右 半边 


2.2 归并 排序 二 171 


的 当前 元 素 小 于 左 半边 的 当前 元 素 全 有 和 的 天 家 以 及 右 半 边 的 当前 元 素 大 于 等 于 左 半边 的 当 
前 元 素 ( 取 左 半边 的 元 素 ) 。 





ar] 5 aux[] 

和 

输入 ”站 

复制 A EE ER TT 

4 0.5 

0 A 0 a RIA C F 
1 Cc bE R CER 
2 E ‘J R Eh 
3 E 和 入 证 E E fr 
4 E bb 2 8 G R ER 
5 EG | 各 G M R “人 
6 M 4 8 NM R 
六 R 5 8 R R 
8 R 5 R 
9 A T 610 T 

归并 结果 有 
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2.2.2 自 项 向 下 的 归并 排序 

算法 2.4 基于 原 地 归并 的 抽象 实现 了 另 一 种 递归 归并 ， 这 也 是 应 用 高 效 算法 设计 中 分 治 思想 的 
最 典型 的 一 个 例子 。 这 段 递归 代码 是 归纳 证 明 算 法 能 够 正确 地 将 数组 排序 的 基础 : 如 果 它 能 将 两 个 
子 数组 排序 ， 它 就 能 够 通过 归并 两 个 子 数组 来 将 整个 数组 排序 。 


:算法 2.4_ 自 项 向 下 的 归并 排序 





public class Merge 
{ 
private static Comparable[] aux; // 归并 所 需 的 辅助 数组 


public static void sort(Comparable[] a) 


, 
aux = new Comparable[a.length]; // 一 次 性 分 配 空间 
sort(a, 0, a.length - 1); 

} 


private static void sort(Comparable[] a, int lo, int hi) 

一/ 让 将 数组 a[1o. .hi] 排 序 

评 (hi -<= 10) return; 

int mid = 1o + (Chi - 10)/2; - 

sort(a，10，mid); // 将 左 半 边 排序 

sort(a, mid+1, hi); // 将 右 站 边 排序 

merge(a，10, mid，hi); ，// 归并 结果 (代码 见 “ 原 地 归并 的 抽象 方法 ”) 
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要 对 子 数组 a[10. .hi] 进行 排序 ， 先 将 它 分 为 a[10. .mid] 和 a[mid+1. .hi] 两 部 分 ， 分 别 通过 


递归 调用 将 它们 单独 排序 ， 最 后 将 有 序 的 子 数组 归并 为 最 终 的 排序 结果 。 





a[l] 
19 hi ol2345678 9101112131415 
\ ) WE R CEs OR Te RRM PE 
merge(a, 0, 0, 1) EM 1 
merge(a, 2, 2, 3) GR 
merge(a, 0, 1, 3) E G M R 
merge(a, 4, 4, 5) [1 
merge(a, 6, 6, 7) OR 
merge(a, 4, 5, 7) E 0 R S 
merge(a, 0, 3, 7) EEGHORKRS 
merge(a, 8, 8, 9) ET 
merge(a, 10, 10, 11) A 其 
merge(a, 8, 9, 11) re 
merge(a, 12, 12, 13) MP 
merge(a, 14, 14, 15) x 9 
merge(a, 12, 13, 15) i 
merge(a, 8, 11, 15) A 丰 臣 全 二 本 三- 二 芝 
merge(a, 0, 7, 15) 沪 下 EE 党 民 全 沪 二 放 注入 交 


自 顶 向 下 的 归并 排序 中 归并 结果 的 轨迹 





要 理解 归并 排序 就 要 仔细 研究 该 方法 调 


sort(a, 0, 15) 


用 的 动态 情况 ， 如 图 222 中 的 轨迹 所 示 。 要 A 

将 a[0..15] 排序 ，sortC 方法 会 调用 自己 将 sorta, 0, 1) 
a[0..7] 排序 ， 再 在 其 中 调用 自己 将 ar0..3] 和 et 
a[0. ,1] 排序 。 在 将 a[0] 和 a[1] 分 别 排序 之 后 ， merge(a, 2, 2, 3) 
终于 才 会 开始 将 a[0] 和 a[1] 归并 (简单 起 见 ， ore i 
我 们 在 轨迹 中 把 对 单个 元 素 的 数组 进行 排序 的 调 人 

用 省 略 了 ) 。 第 二 次 归并 是 a[2] 和 a[3] ， 然 后 mrp A 
是 a[0..1] 和 a[2..3]， 以 此 类 推 。 从 这 段 轨迹 所 多 6, 7 
可 以 看 到 ，sortO 方法 的 作用 其 实在 于 安排 多 次 merge(a, 4, 5, 
merge0 方法 调用 的 正确 顺序 。 后 面 几 节 还 会 用 1 


到 这 个 发 现 。 

这 段 代码 也 是 我 们 分 析 归 并 排序 的 运行 时 间 
的 基础 。 因 为 归并 排序 是 算法 设计 中 分 治 思想 的 
典型 应 用 ， 我 们 会 详细 对 它 进行 分 析 。 

我 们 也 可 以 通过 图 2.2.3 所 示 的 树 状 图 来 理 
解 命题 F。 每 个 结 点 都 表示 一 个 sort0 方法 通 
过 mergeQ 方法 归并 而 成 的 子 数组 。 这 棵 树 正 
好 及 层 。 对 于 0 到 -1 之 间 的 任意 k， 自 顶 向 
下 的 第 上 层 有 2 个 于 数组 ， 每 个 数组 的 长 度 为 
2”， 归 并 最 多 需要 2 次 比较 。 因 此 每 层 的 比 
较 次 数 为 2 x 2" 生 2"，n 层 总 共 为 n2"=NlgN。 


sort(a, 8, 15) 
各 分 排序 。 sortCa，8， 11) 
sort(a, 8, 9) 
merge(a, 8, 8, 9) 
sort(a, 10, 11) 
merge(a, 10, 10, 11) 
merge(a, 8, 9, 11) 
sort(a, 12, 15) 
sort(a, 12, 13) 
merge(a, 12, 12, 13) 
sort(a, 14, 15) 
merge(a, 14, 14,15) 
merge(a, 12, 13, 15) 
merge(a, 8, 11, 15) 
归并 结果 merge(a, 0, 7, 15) 


图 2.2.2 自 顶 向 下 的 归并 排序 的 调用 轨迹 
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2.2.3 N=16 时 归并 排序 中 子 数组 的 依赖 树 
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命题 F 和 命题 G 告诉 我 们 归并 排序 所 需 的 时 间 和 MgN 成 正比 。 这 和 2.1 节 所 述 的 初级 排序 方法 
不 可 同日 而 语 ， 它 表明 我 们 只 需要 比 遍 历 整个 数组 多 个 对 数 因子 的 时 间 就 能 将 一 个 庞大 的 数组 排序 。 
可 以 用 归并 排序 处 理 数 百 万 甚至 更 大 规模 的 数组 ， 这 是 插入 排序 或 者 选择 排序 做 不 到 的 。 归 并 排序 的 
主要 缺点 是 辅助 数组 所 使 用 的 额外 空间 和 NN 的 大 小 成 正比 。 另 一 方面 ， 通 过 一 些 细致 的 思考 我 们 还 
能 够 大 幅度 缩短 归并 排序 的 运行 时 间 。 
2.2.2.1 ”对 小 规模 子 数组 使 用 插入 排序 

用 不 同 的 方法 处 理 小 规模 问题 能 改进 大 多 数 递 归 算 法 的 性 能 ， 因 为 递归 会 使 小 规模 问题 中 方法 
的 调用 过 于 频繁 ， 所 以 改进 对 它们 的 处 理 方法 就 能 改进 整个 算法 。 对 排序 来 说 ， 我 们 已 经 知道 插 人 
排序 (或 者 选择 排序 ) 非常 简单 ， 因 此 很 可 能 在 小 数组 上 比 归 并 排序 更 快 。 和 之 前 一 样 ， 一 幅 可 视 
轨迹 图 能 够 很 好 地 说 明 归并 排序 的 行为 方式 。 图 2.2.4 中 的 可 视 轨迹 图 显示 的 是 改良 后 的 归并 排序 
的 所 有 操作 。 使 用 插 人 排序 处 理 小 规模 的 子 数 组 ( 比如 长 度 小 于 15 ) 一 般 可 以 将 归并 排序 的 运行 时 
间 缩 短 10% ~ 15% ( 请 见 练习 2.2.23 ) 。 





和 -个 子 到 组 all | alld 
第 二 个 数组 ani hull 
第 _ 次 由 并 all 1 hab hh, 
Wl 1 hh 
lllll Ll 
a ll bl 
将 部 分 排序 完 成 ooo hatred itd 
| al 
lll 

il 1 
tl 1 
ll ||| 
| 
后 六部 分 排序 完成 an | 
a ee 


图 2.2.4 改进 了 小 规模 子 数组 排序 方法 后 的 自 顶 向 下 的 归并 排序 的 可 视 轨迹 


2.2.2:2 -测试 数组 是 否 已 经 有 序 
我 们 可 以 添加 一 个 判断 条 件 ， 如 果 atmid] 小 于 等 于 a[midt1]， 我 们 就 认为 数组 已 经 是 有 序 
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的 并 跳 过 mergeQ 〇 方法 。 这 个 改动 不 影响 排序 的 递归 调用 ， 但 是 任意 有 | 生起 有 时 间 


就 变 为 线性 的 了 ( 请 见 练习 2.2.8 ) 。 
2.2.2.3 不 将 元 素 复制 到 辅助 数组 a 
-我 们 可 以 节省 将 数组 元 素 复 制 到 用 于 归并 的 输 助 数组 所 用 的 时 间 ( 但 空间 不 行 ) 。 要 做 到 这 二 

点 我 们 要 调用 两 种 排序 方法 ， 一 种 将 数据 从 输入 数组 排序 到 辅助 数组 ， 一 种 将 数据 从 辅助 数组 排序 
到 输入 数组 。 这 种 方法 需要 一 些 技巧 我们 要 在 递归 调用 的 每 个 层次 交换 输入 数组 和 辅助 数组 的 角 
色 (请 见 练习 2.2.11 ) 。 机 

这 里 我 们 要 重新 强调 第 1 章 中 提出 的 一 个 很 容易 遗忘 的 要 点 。 在 每 一 节 中 ， 我 们 会 将 书 中 的 每 
个 算法 都 看 做 某 种 应 用 的 关键 。 但 在 整体 上 ， 我 们 希望 学 习 的 是 为 每 种 应 用 找到 最 合适 的 算法 。 我 
们 并 不 是 在 推荐 读者 一 定 要 实现 所 提 到 的 这 些 改进 方法 ， 而 是 提醒 大 家 不 要 对 算法 初始 实现 的 性 能 
盖 棺 定论 。 研 究 一 个 新 间 题 时 ， 最 好 的 方法 是 先 实 现 一 个 你 能 想到 的 最 简单 的 程序 ， 当 它 成 为 瓶颈 
的 时 候 再 继续 改进 它 。 实 现 那些 只 能 把 运行 时 间 缩短 某 个 常数 因子 的 改进 措施 可 能 并 不 值得 。 你 需 
要 用 实验 来 检验 一 项 改进 ， 正 如 本 书 中 所 有 练习 所 演示 的 那样 。 

对 于 归并 排序 ， 刚 才 列 出 的 三 :个 建议 都 很 容易 实现 且 在 应 用 归并 排序 时 是 十 分 有 吸引 力 的 一 一 比 
如 本 章 最 后 讨论 的 情况 。 


2.2.3， 自 底 向 上 的 归并 排序 
“递归 实现 的 归并 排序 是 算法 设计 中 分 治 思想 的 奥 型 应 用 。 我 们 将 一 个 大 问题 分 制 成 小 问题 分 

别 解决 ， 然后 用 所 有 小 问题 的 答案 来 解决 整个 大 问题 。 尽 管 我 们 考虑 的 问题 是 归并 两 个 大 数组 ， 

实际 上 我 们 归并 的 数组 大 多 数 都 非常 小 。 实 现 归并 sz=l 

排序 的 另 一 种 方法 是 先 归 并 那些 微型 数组 ， 然 后 再 TAA TT 

成 对 内 关 和 到 的 于 数组 。 如 此 这 般 ， 直 到 我 们 将 整 3 

te a LN 

T 少 。 本 
个 元 一 一 小 4 

.99g 多吉- 人 为 1 的 王后 a 

个 元 素 的 数组 ) ,然后 是 八 八 的 归并 ， 一 直下 去 。 

et ld | 

能 比 第 一 个 子 数组 要 小 ( 但 这 对 merge( 方法 不 是 16 响 

间 题 7 ， 如 果 不 是 的 话 所 有 的 归并 中 两 个 数组 大 小 -ea .sw 

都 应 该 一 样 ， 而 在 下 一 轮 中 子 数 组 的 大 小 会 翻 倍 。 


此 过 程 的 可 视 轨 迹 如 图 22.5 所 示 。 - -局 emaaaaaIINNNIIIIINNHILLIINIHHL| 
自 底 向 上 的 归并 排序 算法 的 实现 如 下 。 “ 国 22.5 自 床 向 上 的 归并 排序 的 可 视 上 本 
自 底 向 上 的 归并 排序 





public class MergeBU 
{ 
private. static Comparable[] aux; _// 归并 所 需 的 辖 助 数组 





2 
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// mergeCD 方 法 的 代码 请 见 “ 原 地 归并 的 抽象 方法 " 
public static void sort(Comparable[] a) 
{ // 进行 19N 次 两 两 归并 
int N = a.length 
aux = new Comparable[N]; 
for (int sz = 1; sz < Ni sz = sz+sz) // sz 于 数组 大 小 
for (int lo = 0; lo < N-sz; lo += sz+sz) // 10: 于 数组 索引 
merge(a, 10, lo+sz-1, Math.min(lo+sz+sz-1, N-1)); 
} 


自 底 向 上 的 归并 排序 会 多 次 遍历 整个 数组 ， 根 据 子 数组 大 小 进行 两 两 归并 。 子 数组 的 大 小 sz 的 初始 值 
为 1, 每 次 加 倍 。 最 后 一 个 子 数组 的 大 小 只 有 在 数组 大 小 是 sz 的 偶数 倍 的 时 候 才 会 等 于 sz( 否则 它 会 比 sz 小 )。 





a[i] 
01234567 8 9101112131415 
sz=1 BIE R OE sO Wh TE Rn 
mergela, 0, 0, DD EMRGE SORT EE XAMP LE 
merge(a, 2, 2, 3) E MGRESORTEXAMPLE 
merge(a, 4, 4, 5) E M | df WY 2 ER 市 
merge(a, 6, 6, 7) 上 ™ KR EES ‘STE NLN rE 
merge(a， 8, 8, 9) 上 ™ R E'S OR ET XA MNM PL 
merge(a, 10, 10, 11) £ 1 WS "©O RENT A AE 
merge(a, 12, 12, 13) FF RES 0 RE TA RMP Ee 
merge(a, 14, 14, 15) FF ™ RE RR ET A EN PE 
sz=2 
merge(a, 0, 1, 3) 二 
merge(a, 4, 5, 7) ELEC, MW RoG TR SE KANN 丰 /六 
merge(a, 8, 9, 11) E 和 
merge(a, 12, 13, 15) E LA A 
sz=4 
merge(a, 0, 3, 7) E E 6 Ma 
merge(a, 8, 11, 15) E EC WOR RS 
sz=8 
merge(a, 0, 7, 15) A EEERE GE Np 和 7 x 
[278) 自 底 向 上 的 归并 排序 的 归并 结果 











当 数 组 长 度 为 2 的 早 时 ， 自 顶 向 下 和 自 底 向 上 的 归并 排序 所 用 的 比较 次 数 和 数组 访问 次 数 正好 
相同 ， 只 是 顺序 不 同 。 其 他 时 候 , 两 种 方法 的 比较 和 数组 访问 的 次 序 会 有 所 不 同 ( 请 见 练习 2.2.5 ) 。 

自 底 向 上 的 归并 排序 比较 适合 用 链表 组 织 的 数据 。 想 象 一 下 将 链表 先 按 大 小 为 1 的 子 链表 进行 
排序 ， 然 后 是 大 小 为 2 的 子 链表 ， 然 后 是 大 小 为 4 的 子 链表 等 。 这 种 方法 只 需要 重新 组 织 链表 链接 
就 能 将 链表 原 地 排序 不 需要 创建 任何 新 的 链表 结 点 ) 。 

用 自 顶 向 下 或 是 自 底 向 上 的 方式 实现 任何 分 治 类 的 算法 都 很 自然 。 归 并 排序 告诉 我 们 ， 当 能 够 
用 其 中 一 种 方法 解决 一 个 问题 时 ， 你 都 应 该 试 试 另 一 种 。 你 是 希望 像 Nerge.sortC 中 那样 化 整 为 
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零 (然后 递归 地 解决 它们 ) 的 方式 解决 问题 ， 还 是 希望 像 MergeBU.sort() 中 那样 循序 渐进 地 解决 
问题 呢 ? 


2.2.4 ”排序 算法 的 复杂 度 

学 习 归 并 排序 的 一 个 重要 原因 是 它 是 证 明 计 算 复杂 性 领域 的 一 个 重要 结论 的 基础 ， 而 计算 复杂 
性 能 够 帮助 我 们 理解 排序 自身 固有 的 难 易 程度 。 计 算 复杂 性 在 算法 设计 中 扮演 着 非常 重要 的 角色 ， 
而 这 个 结论 正 是 和 排序 算法 的 设计 直接 相关 的 ， 因 此 接 下 来 我 们 就 要 详细 地 讨论 它 。 

研究 复杂 度 的 第 一 步 是 建立 一 个 计算 模型 。 一 般 来 说 ， 研 究 者 会 尽量 寻找 一 个 和 问题 相关 的 最 
简单 的 模型 。 对 排序 来 说 ， 我 们 的 研究 对 象 是 基于 比较 的 算法 ， 它 们 对 数组 元 素 的 操作 方式 是 由 主 
键 的 比较 决定 的 。 一 个 基于 比较 的 算法 在 两 次 比较 之 间 可 能 会 进行 任意 规模 的 计算 ， 但 它 只 能 通过 
主键 之 间 的 比较 得 到 关于 某 个 主键 的 信息 。 因 为 我 们 局 限于 实现 了 Comparable 接口 的 对 象 ， 本 章 
中 的 所 有 算法 都 属于 这 一 类 ( 注意 ， 我 们 忽略 了 访问 数组 的 开销 ) 。 在 第 5 章 中 ， 我 们 会 讨论 不 局 
限于 Comparable 元 素 的 算法 。 


命题 |。 没有 任何 基于 比较 的 算法 能 够 保证 使 用 少 于 lg ( NI) ~ NlgN 次 比较 将 长 度 为 的 数组 
排序 。 


证 明 。 首 先 ， 假 设 没有 重复 的 主键 ， 因 为 任何 排序 算法 都 必须 能 够 处 理 这 种 情况 。 我 们 使 用 二 
叉 树 来 表示 所 有 的 比较 。 树 中 的 结 点 要 么 是 一 片 叶 于 Gam) ， 表 示 排序 完成 且 原 输入 的 
排列 顺序 是 a[io],a[ii],…a[iwi]， 要 么 是 一 个 内 部 结 点 (D)， 表 示 a[i] 和 a[j] 之 间 的 一 次 
比较 操作 ， 它 的 左 子 树 表 示 a[i] 小 于 a[j] 时 进行 的 其 他 比较 ， 右 子 树 表示 a[i] 大 于 a[j] 
时 进行 的 其 他 比较 。 从 根 结 点 到 叶子 结 点 每 一 条 路 径 都 对 应 着 算法 在 建立 叶子 结 点 所 示 的 顺序 
时 进行 的 所 有 比较 。 例 如 ， 这 是 一 棵 N=3 时 的 比较 树 : 





我 们 从 来 没有 明确 地 构造 这 棵 树 一 一 它 只 是 用 来 描述 算法 中 的 比较 的 一 个 数学 工具 。 

从 比较 树 观 察 得 到 的 第 一 个 重要 结论 是 这 棵 树 应 该 至 少 有 NI 个 叶子 结 点 ， 因 为 NV 个 不 同 的 主 
键 会 有 NI 种 不 同 的 排列 。 如 果 叶子 结 点 少 于 ML， 那 肯定 有 一 些 排列 顺序 被 遵 泪 了 。 算 法 对 于 
那些 被 遗漏 的 输入 肯定 会 失败 。 

丛 根 结 点 到 叶子 结 点 的 一 条 路 径 上 的 内 部 结 点 的 数量 即 是 某 种 输入 下 算法 进行 比较 的 次 数 。 我 们 
感 兴趣 的 是 这 种 路 径 能 有 多 长 ( 也 就 是 树 的 高 度 ) ， 因 为 这 也 就 是 算法 比较 次 数 的 最 坏 情况 。 二 
又 树 的 一 个 基本 的 组 合 学 性 质 就 是 高 度 为 及 的 树 景 多 只 可 能 有 2， 个 叶子 结 点 ， 拥 有 2 个 结 点 的 
树 是 完美 平衡 的 ， 或 称 为 完全 树 。 下 图 所 示 的 就 是 一 个 -4 的 例子 。 








279| 














280| 
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这 个 结论 告诉 了 我 们 在 设计 排序 算法 的 时 候 能 够 达到 的 最 佳 效果 。 例 如 ， 如 果 没 有 这 个 结论 ， 
我 们 可 能 会 去 尝试 设计 一 个 在 最 坏 情况 下 比较 次 数 只 有 归并 排序 的 一 半 的 基于 比较 的 算法 。 命 题 
中 的 下 限 告诉 我 们 这 种 努力 是 没有 意义 的 一 这 样 的 算法 不 存在 。 这 是 一 个 重要 结论 ,适用 于 任何 
我 们 能 够 想到 的 基于 比较 的 算法 。 ye 

命题 二 表明 归并 排序 在 最 坏 情况 下 的 比较 次 数 为 -NigN。 这 是 其 他 排序 算法 复杂 度 的 上 限 ， 也 
就 是 说 更 好 的 算法 需要 保证 使 用 的 比较 次 数 更 少 。 命 题 1 说 明 没有 任何 排序 算法 能 够 用 少 于 ~MgN 
次 比较 将 数组 排序 ， 这 是 其 他 排序 算法 复杂 度 的 下 限 。 也 就 是 说 ， 即 使 是 最 好 的 算法 在 最 坏 的 情况 。 
下 也 至 少 需要 这 么 多 次 比较 。 将 两 者 结合 起 来 也 就 意味 着 : 3 


需要 强调 的 是 ， 和 计算 模型 一 样 ， 我 们 需要 精确 地 定义 最 优 算法 。 例 如 ， 我 们 可 以 严格 地 认为 
仅仅 只 需要 NI 次 比较 的 算法 才 是 最 优 的 排序 算法 。 我 们 不 这 么 做 的 原因 是 ， 即 使 对 于 很 大 的 N， 
这 种 算法 和 ( 比如 说 ) 归并 排序 之 间 的 差异 也 并 不 明显 。 或 者 我 们 也 可 以 放宽 最 优 的 定义 ,使 之 包 
含 任意 在 最 坏 情 况 下 的 比较 次 数 都 在 NgN 的 某 个 常数 因子 范围 之 内 的 排序 算法 。 我 们 不 这 么 做 的 


原因 是 对 于 很 大 的 W， 这 种 算法 和 归并 排序 之 间 的 差距 还 是 很 明显 的 。 


计算 复杂 度 的 概念 可 能 会 让 人 觉得 很 抽象 ， 但 解决 可 计算 问题 内 在 困难 的 基础 性 研究 则 不 管 怎 
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么 说 都 是 非常 必要 的 。 而 且 ， 在 适用 的 情况 下 ,关键 在 于 计算 复杂 度 会 影响 优秀 软件 的 开发 。 首 先 ， 
准确 的 上 界 为 软件 工程 师 保证 性 能 提供 了 空间 。 很 多 例子 表明 , 平方 级 别 排序 的 性 能 低 于 线性 排序 。 
其 次 ， 准 确 的 下 界 可 以 为 我 们 节省 很 多 时 间 ， 避 免 因 不 可 能 的 性 能 改进 而 投入 资源 。 

但 归并 排序 的 最 优 性 并 不 是 结束 ， 也 不 代表 在 实际 应 用 中 我 们 不 会 考虑 其 他 的 方法 了 ， 因 为 本 
节 中 的 理论 还 是 有 许多 局 限 性 的 ， 例 如 : 

口 归并 排序 的 空间 复杂 度 不 是 最 优 的 ; 

口 在 实践 中 不 一 定 会 遇 到 最 坏 情况 ; 

口 除了 比较 , 算法 的 其 他 操作 ( 例如 访问 数组 ) 也 可 能 很 重要 ; 

口 不 进行 比较 也 能 将 某 些 数据 排序 。 

因此 在 本 书 中 我 们 还 将 继续 学 习 其 他 一 些 排序 算法 。 282| 


间 ”归并 排序 比 硕 尔 排序 快 吗 ? 
答 在 实际 应 用 中 ， 它 们 的 运行 时 间 之 间 的 差距 在 常数 级 别 之 内 ( 希 尔 排 序 使 用 的 是 像 算法 2.3 中 那样 
的 经 过 验证 的 递增 序列 ) ， 因 此 相对 性 能 取决 于 具体 的 实现 。 


% java SortCompare Merge She11 100000 
For 100000 random Double values 
Merge is 1.2 times faster than She11 


理论 上 来 说 ， 还 没有 人 能 够 证 明 希 尔 排序 对 于 随机 数据 的 运行 时 间 是 线性 对 数 级 别 的 ， 因 此 存在 平 
均 情况 下 看 尔 排序 的 性 能 的 渐进 增长 率 "更 高 的 可 能 性 。 在 最 坏 情况 下 ， 这 种 差距 的 存在 已 经 被 证 实 
了 ,但 这 对 实际 应 用 没有 影响 。 

问 为 什么 不 把 数组 aux[] 声明 为 merge() 方法 的 局 部 变量 ? 

答 ”这 是 为 了 避免 每 次 归并 时 ， 即 使 是 归并 很 小 的 数组 ， 都 创建 一 个 新 的 数组 。 如 果 这 么 做 ,那么 创建 
新 数组 将 成 为 归并 排序 运行 时 间 的 主要 部 分 ( 请 见 练习 2.2.26 ) 。 更 好 的 解决 方案 是 将 aux[] 变 为 
Sort() 方法 的 局 部 变量 , 并 将 它 作为 参数 传递 给 mergeQ 〇 方法 (为 了 简化 代码 我 们 没有 在 例子 中 这 
么 做 ， 请 见 练 习 2.2.9) 。 

问 ” 当 数组 中 存在 重复 的 元 素 时 归并 排序 的 表现 如 何 ? 

答 ”如 果 所 有 的 元 素 都 相同 ， 那 么 归并 排序 的 运行 时 间 将 是 线性 的 ( 需要 一 个 额外 的 测试 来 避免 归并 已 
经 有 序 的 数组 ) 。 但 如 果 有 多 个 不 同 的 重复 值 ， 这 样 做 的 性 能 收益 就 不 是 很 明显 了 。 例 如 ， 假 设 输 
人 和 数组 的 N 个 奇数 位 上 的 元 素 都 是 同一 个 值 ， 另 外 N 个 偶数 位 上 的 元 素 都 是 另 一 个 值 ， 此 时 算法 的 
运行 时 间 是 线性 对 数 的 ( 这 样 的 数组 和 所 有 元 素 都 不 重复 的 数组 满足 了 相同 的 循环 条 件 ) ， 而 非 线 
性 的 。 283| 


2.2.1 按照 本 节 开 头 所 示 轨 迹 的 格式 给 出 原 地 归并 的 抽象 merge() 方法 是 如 何 将 数组 A EQ S U YE 
IN 0 ST 排序 的 。 























外 即 运 行 时 间 的 近似 函数 。 一 一 译 者 注 





284, 
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2.2.2 


按照 算法 2.4 所 示 轨 迹 的 格式 给 出 自 项 向 下 的 归并 排序 是 如 何 将 数组 E AS YQUESTI0 
N 排 序 的 。 

用 自 底 向 上 的 归并 排序 解答 练习 2.2.2。 

是 否 当 且 仅 当 两 个 输入 的 子 数组 都 有 序 时 原 地 归并 的 抽象 方法 才能 得 到 正确 的 结果 ?证 明 你 的 结 
论 ， 或 者 给 出 一 个 反例 。 = : 

当 输 入 数组 的 大 小 N=39 时 , 给 出 自 顶 向 下 和 自 底 向 上 的 归并 排序 中 各 次 归并 子 数组 的 大 小 及 顺序 。 
编写 一 个 程序 来 计算 自 顶 向 下 和 自 底 向 上 的 归并 排序 访问 数组 的 准确 次 数 。 使 用 这 个 程序 将 N=1 
至 512 的 结果 绘 成 曲线 图 ， 并 将 其 和 上 限 6MgN 比较 。 

证 明 归并 排序 的 比较 次 数 是 单调 递增 的 ( 即 对 于 N>0，C(N+1)>C(N) ) 。 3 
假设 将 算法 2.4 修改 为 : 只 要 a[mid] <= almid+1] 就 不 调用 merge() 方法 ， We Eb 
处 理 一 个 已 经 有 序 的 数组 所 需 的 比较 次 数 是 线性 级 别 的 

在 库 函 数 中 使 用 aux[] 这 样 的 静态 数组 是 不 妥当 的 ， 国 为 可 能 会 有 多 个 各 序 同时 合用 这 个 类 。 实 
现 一 个 不 用 静态 数组 的 Merge 类 ,但 也 不 要 将 aux[] 变 为 merge() 的 局 部 变量 ( 请 见 本 节 的 答 
疑 部 分 ) 。 提 示 ; 可 以 将 辅助 数组 作为 参数 传闻 给 地 归 的 sort() 方法 。 
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2.2.11 


2.2.12 
2.2.13 
2.2.14 
2.2.15 


2.2.16 


2.2.17 


快速 归并 。 实 现 -个 mergeO) 方法 ， 按 降序 将 a[] 的 后 半 部 分 复制 到 aux[] ， 然 后 将 其 归并 回 
a[] 中 。 这 样 就 可 以 去 掉 内 循环 中 检测 某 半边 是 否 用 尽 的 代码 。 注 意 ， 这 样 的 排序 产生 的 结果 是 
不 稳定 的 (请 见 2.5.1.8 节 ) 。 9 
改进 。 实 现 2.2.2 节 所 述 的 对 归并 排序 的 三 项 改进 ;- 加 快 小 数组 的 排序 速度 ， 检 测 数 组 是 否 已 经 
有 序 以 及 通过 在 递归 中 交换 参数 来 避免 数组 复制 。 
次 线性 的 额外 空间 。 用 大 小 M 将 数组 分 为 NIM 块 简单 起 见 ,- 设 M 是 N 的 约 数 ) 。 实 现 一 个 
归并 方法 ， 使 之 所 需 的 额外 空间 减少 到 max(M, N/M): (iD 可 以 先 将 一 个 块 看 做 一 个 元 素 ， 将 块 


的 第 一 个 元 素 作为 块 的 主键 ， 用 选择 排序 将 块 排序 ，(ii) 遍历 数组 ， 将 第 一 块 和 第 二 块 归并 , 完 


成 后 将 第 二 块 和 第 三 块 归并 ,等 等 。 
.平均 情况 的 下 限 。 请 证 明 任 意 基 于 比较 的 排序 算法 的 预期 比较 次 数 至 少 为 -NgN ( 假设 输入 元 
素 的 所 有 排列 的 出 现 概率 是 均等 的 ) 。 提示 : 比较 次 数 至 少 是 比较 树 的 外 部 路 径 的 长 度 ( 根 结 ， 
点 到 所 有 叶子 结 点 的 路 径 长 度 之 和 ) 。 当 树 平衡 时 该 值 最 小 。 

归并 有 序 的 队列 。 编 写 一 个 静态 方法 , 将 两 个 有 序 的 队列 作为 参数 , 返回 一 个 归并 后 的 有 序 队 列 。 
自 底 向 上 的 有 序 队 列 归并 排序 。 用 下 面 的 方法 编写 一 个 自 底 向 上 的 归并 排序 : 给 定 N 个 元 素 ， 
创建 入 个 队列 ， 每 个 队列 包含 其 中 一 个 元 素 。 创 建 一 个 申 这 入 个 队列 组 成 的 队列 ， 然 后 不 断 用 
练习 2.2.14 中 的 方法 将 队列 的 头 两 个 元 素 归并 ， 并 将 结果 重新 加 入 到 队列 结尾 ， 直 到 队列 的 队 
列 具 剩 下 一 个 元 素 为 止 。 

自然 的 归并 排序 。 编 写 一 个 自 底 向 上 的 归并 排序 ， 当 需要 将 两 个 于 数组 排序 时 能 够 利用 数组 中 
已 经 有 序 的 部 分 。 首 先 找到 一 个 有 序 的 子 数组 (移动 指针 直到 当前 元 素 比 上 一 个 元 素 小 为 止 ) ， 
然后 再 找 出 另 一 个 并 将 它们 归并 。 根 据 数组 大 小 和 数组 中 递增 子 数组 的 最 大 长 度 分 析 算法 的 运 
行 时 间 。 

链表 排序 。 实 现 对 链表 的 自然 排序 Dd di 因为 它 不 需要 额外 的 空间 ， 
县 运行 时 间 是 线性 对 数 级 别 的 ) 。 


2.2.18 


2.2.19 


2.2.20 


2.2.21 


2.2.22 





2.2.23 


2.2.24 


2.2.25 


2.2.26 


2.2.27 


2.2.28 


2.2.29 


打 乱 链表 。 实 现 一 个 分 治 算法 ,使 用 线性 对 数 级 别 的 时 间 和 对 数 级 别 的 额外 空间 随机 打 乱 一 条 
链表 。 

倒置 。 编 写 一 个 线性 对 数 级 别 的 算法 统计 给 定数 组 中 的 “倒置 "数量 ( 即 插入 排序 所 需 的 交换 次 数 ， 
请 见 2.1 节 ) 。 这 个 数量 和 Kendall tav 距离 有 关 ， 请 见 2.5 节 。 

间接 排序 。 编 写 一 个 不 改变 数组 的 归并 排序 ， 它 返回 一 个 int[] 数组 perm， 其 中 perm[i] 的 
值 是 原 数组 中 第 i 小 的 元 素 的 位 置 。 

一 式 三 份 。 给 定 三 个 列表 ， 每 个 列表 中 包含 N 个 名 字 ， 编 写 一 个 线性 对 数 级 别 的 算法 来 判定 三 
份 列表 中 是 否 含有 公共 的 名 字 ， 如 果 有 ， 返 回 第 一 个 被 找到 的 这 种 名 字 。 

三 向 归并 排序 。 假 设 每 次 我 们 是 把 数组 分 成 三 个 部 分 而 不 是 两 个 部 分 并 将 它们 分 别 排序 ， 然 后 
进行 三 向 归并 。 这 种 算法 的 运行 时 间 的 增长 数量 级 是 多 少 ? 








/a Se Ca 


改进 。 用 实验 评估 正文 中 所 提 到 的 归并 排序 的 三 项 改进 ( 请 见 练习 2.2.11 ) 的 效果 ， 并 比较 正文 
中 实现 的 归并 和 练习 2.2.10 所 实现 的 归并 之 间 的 性 能 。 根 据 经 验 给 出 应 该 在 何 时 为 子 数组 切换 
到 插入 排序 。 s 

改进 的 有 序 测试 。 在 实验 中 用 大 型 随机 数组 评估 练习 2.2.8 所 做 的 修改 的 效果 。 根据 经 验 用 N( 被 
排序 的 原始 数组 的 大 小 ) 的 函数 描述 条 件 语句 (a[mid] < =a[mid+1] ) 成 立 (无 论 数 组 是 否 有 序 ) 
的 平均 次 数 。 i 

多 向 归并 排序 。 实 现 一 个 上 向 ( 相对 双向 而 言 ) 归并 排序 程序 。 分 析 你 的 算法 ， 估 计 最 佳 的 上 
值 并 通过 实验 验证 猜想 。 

创建 数组 。 使 用 SortCompare 粗略 比较 在 你 的 计算 机 上 在 mergeC) 中 和 在 sort() 中 创建 
aux[] 的 性 能 差异 。 > 

子 数组 长 度 。 用 归并 将 大 型 随机 数组 排序 ， 根 据 经 验 用 N ( 某 次 归并 时 两 个 子 数组 的 长 度 之 和 ) 

的 函数 估计 当 一 个 子 数组 用 尽 时 另 一 个 子 数组 的 平均 长 度 。 : 

自 项 向 下 与 自 底 向 上 。 对 于 N=10?、10'、-10* 和 10, 使 用 SortCompare 比较 自 顶 向 下 和 自 底 向 
上 的 归并 排序 的 性 能 。 


自然 的 归并 排序 。 对 于 N=10'、10“ 和 10?， 类 型 为 Long 的 随机 主键 数组 ， 根 据 经 验 给 出 自然 的 “ 


归并 排序 ( 请 见 练习 2.2.16 ) 所 需要 的 遍 数 。 提 示 : 不 需要 实现 这 个 排序 (甚至 不 需要 生成 所 有 
完整 的 64 位 主键 ) 也 能 完成 这 道 练习 。 


22 归并 排序 a181 
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2.3 ”快速 排序 i - 

本 节 的 主题 是 快速 排序 , 它 可 能 是 应 用 最 广泛 的 排序 算法 了 。 快速 排 序 流行 的 原因 是 它 实现 简单 、 
适用 于 各 种 不 同 的 输入 数据 且 在 一 般 应 用 中 比 其 他 排序 算法 都 要 快 得 多 。 快 速 排序 引 人 注 目的 特点 包 
括 它 是 原 地 排序 (只 需要 一 个 很 小 的 辅助 栈 ) ， 且 将 长 度 为 N 的 数组 排序 所 和 需 的 时 间 和 NigN 成 正比 。 
我 们 已 经 学 习 过 的 排序 算法 都 无 法 将 这 两 个 优点 结合 起 来 。 另 外 ， 快 速 排序 的 内 循环 比 大 多 数 排序 算 
法 都 要 短小 ， 这 意味 着 它 无 论 是 在 理论 上 还 是 在 实际 中 都 要 更 快 。 它 的 主要 缺点 是 非常 脆弱 ， 在 实现 
时 要 非常 小 心 才能 避免 低劣 的 性 能 。 已 经 有 无 数 例子 显示 许多 种 错误 都 能 致使 它 在 实际 中 的 性 能 只 
有 平方 级 别 。 幸 好 我 们 将 会 看 到 ， 由 这 些 错误 中 学 到 的 教训 也 大 大 改进 了 快速 排序 算法 ， 使 它 的 应 
用 更 加 广泛 < ; , 
2.3.1 基本 算法 

快速 排序 是 一 种 分 治 的 排序 算法 。 它 将 一 个 数组 分 成 两 个 子 数组 ， 将 两 部 分 独立 地 排序 。 快 速 排 
序 和 归并 排序 是 互补 的 : 归并 排序 将 数组 分 成 两 个 子 数组 分 别 排序 ， 并 将 有 序 的 子 数 组 归并 以 将 整个 
数组 排序 ， 而 快速 排序 将 数组 排序 的 方式 则 是 当 两 个 子 数组 都 有 序 时 整个 数组 也 就 自然 有 序 了 。 在 第 
一 种 情况 中 ,递归 调用 发 生 在 处 理 整个 数组 之 前 ; 在 第 二 种 情况 中 ,递归 调用 发 生 在 处 理 整个 数组 之 后 。 
在 归并 排序 中 ， 一 个 数组 被 等 分 为 两 半 ; 在 快速 排序 中 ， 切 分 partition ) 的 位 置 取决 于 数组 的 内 容 。 
快速 排序 的 大 致 过 程 如 图 23.1 所 示 。 





切 分 EC AI E KK 七 

~ 不 大 于 不 小 于 
将 左 半 部 分 排序 A C E E 工 p 4 QRXO 
将 右 半 部 分 排序 A E I es 
A CE ET 


图 2.3.1 “快速 排序 示意 图 
快速 排序 的 实现 过 程 如 算法 2.5 所 示 。 
算法 2.5 快速 排序 


public class. Quick 





public static void sort(Comparable[] a) 
{ 


StdRandom. shuffle(a); // 消除 对 输入 的 依 炳 
sort(a, 0, a.length - 1D); 


private static void sort(Comparable[] a, int lo, int hi) 


if (hi <= 10) return; - 

int j = partition(a，10，hiD; // 切 分 (请 见 “ 快 速 排序 的 切 分 ”) 
sort(a，10，j-1); // 将 左 半 部 分 a[10 ..j-1] 排 序 
sort(a, j+1, hi); // 将 右 站 部 分 a[j+1 . hi] 排 序 
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快速 排序 递归 地 将 子 数组 a[1o. .hi] 排序 ， 先 用 partitionC) 方法 将 a[j] 放 到 一 个 合适 位 置 ， 然 





后 再 用 递归 调用 将 其 他 位 置 的 元 素 排序 。 
lo j hi 01234567 8 9101112131415 
初始 值 QUICK SORTEX AMPLE 
随机 打 乱 KRATELEPUIMQCX0S 
0 515 ECAIEKLPUTMQRX0S 
0 3% ECAELI R Xx 
"Wt R 
0 0 1 AC 
< 
ss LPUTNMQRX0S 
大 小 为 1 的 子 7 9 15 MOPTQRXUS 
数组 不 需要 7 7 8 M 0 
继续 切 分 \、 0 
10 13 15 SQRTUX 
10 12 12 R Q S 
10 11 11 QR 
Q 
14 14 15 Ux 
x 
结果 ACEEIKLNMOPQRSTUXx 





该 方法 的 关键 在 于 切 分 ， 这 个 过 程 使 得 数组 满足 下 面 三 个 条 件 : 


口 对 于 某 个 j，a[j] 已 经 排 定 ; 

口 a[10] 到 a[j-1] 中 的 所 有 元 素 都 不 大 于 a[j]; 
口 a[j+1] 到 a[hi] 中 的 所 有 元 素 都 不 小 于 a[j]。 
我 们 就 是 通过 递归 地 调用 切 分 来 排序 的 。 


因为 切 分 过 程 总 是 能 排 定 一 个 元 素 ， 用 归纳 法 不 难 证 明 递归 能 够 正确 地 将 数组 排序 : 如 果 左 子 
数组 和 右 子 数组 都 是 有 序 的 ， 那 么 由 左 子 数组 ( 有 序 且 没有 任何 元 素 大 于 切 分 元 素 ) 、 切 分 元 素 和 
右 子 数组 ( 有 序 且 没 有 任何 元 素 小 于 切 分 元 素 ) 组 成 的 结果 数组 也 一 定 是 有 序 的 。 算 法 2.5 就 是 实 
现 了 这 个 思路 的 一 个 递归 程序 。 它 是 一 个 随机 化 的 算法 ， 因 为 它 在 将 数组 排序 之 前 会 将 其 随机 打 乱 。 
我 们 这 么 做 的 原因 是 希望 能 够 预测 〈 并 依赖 ) 该 算法 的 性 能 特性 ， 之 后 我 们 会 详细 讨论 。 


要 完成 这 个 实现 ， 需 要 实现 切 分 方法 。 一 般 策略 是 先 
随意 地 取 a[1o] 作为 切 分 元 素 ， 即 那个 将 会 被 排 定 的 元 素 ， 
然后 我 们 从 数组 的 左 端 开始 向 右 扫描 直到 找到 一 个 大 于 等 
于 它 的 元 素 ， 再 从 数组 的 右 端 开 始 向 左 扫描 直到 找到 一 个 
小 于 等 于 它 的 元 素 。 这 两 个 元 素 显 然 是 没有 排 定 的 ， 因 此 
我 们 交换 它们 的 位 置 。 如 此 继续 ， 我 们 就 可 以 保证 左 指针 
i 的 左 侧 元 素 都 不 大 于 切 分 元 素 ， 右 指针 j 的 右 侧 元 素 都 
不 小 于 切 分 元 素 。 当 两 个 指针 相遇 时 ， 我 们 只 需要 将 切 分 
元 素 a[10] 和 左 子 数组 最 右 侧 的 元 素 (ar[j] ) 交换 然后 返 
回 了 即 可 。 切 分 方法 的 大 致 过 程 如 图 2.3.2 所 示 。 















Wom 

1 hi 

切 分 中 y| 三 Ev | 
了 

war ar av | 

1o j hi 


2.3.2 快速 排序 的 切 分 示意 图 


这 段 快速 排序 的 实现 代码 中 还 有 几 个 细节 问题 值得 一 提 ， 因 为 它们 都 可 能 导致 实现 错误 或 是 影响 
性 能 ， 我 们 会 在 下 面 讨论 。 本 节 稍 后 我 们 会 研究 算法 的 三 个 高 层次 的 改进 。 
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快速 排序 的 切 分 的 实现 如 下 所 示 。 
快速 排序 的 切 分 


private static int partition(Comparable[] a, int 1o，int hi) 
{ // 将 数组 切 分 为 a[10..1-1]，a[i]，a[i+1. .hi] 
int 1 = 10, j = hi // 左右 扫描 指针 
Comparable v = a[lo]; // 切 分 元 素 
while (true) 
{ // 扫描 左右 ， 检 查 扫描 是 否 结束 并 交换 元 素 
while (lessCa[++i], v)) if (i == hi) break; 
while (less(v, a[--j])) if (j == 10) break; 
if (1 >= j) break; 








exch(a, i, j); 
} 
exch(a, 10, i); // 将 v = a[j] 放 入 正确 的 位 置 
return ji // a[lo..j-1] <= a[j] <= a[j+1..hi] 达成 


} 


这 段 代码 按照 a[10] 的 值 v 进行 切 分 。 当 指针 i 和 j 相遇 时 主 循环 退出 。 在 循环 中 ，a[i] 小 于 v 时 
我 们 增 大 1，a[j] 大 于 v 时 我 们 减 小 j， 然 后 交换 a[i] 和 a[j] 来 保证 i 左 侧 的 元 素 都 不 大 于 v，j 右 侧 
的 元 素 都 不 小 于 v。 当 指针 相遇 时 交换 a[10] 和 a[j] ， 切 分 结束 (这 样 切 分 值 就 留 在 ar[j] 中 了 ) 。 


v a[l] 








村 ja 1234 567 8 91011 12131415 
和 失信 本 区 屿 TELEP 人 VE CX 0s 
扫描 左 、 右 部 分 。 1 12 a CE X05 
交换 1 12 下 R 
扫描 左 、 右 部 分 3 9 A 1M 
交换 3 9 I T 
扫描 左 、 右 部 分 5 6 ELEPWU 
交换 5 6 EL 
扫描 左 、 右 部 分 6 5 EL 
最 后 一 次 交换 5 E 
结果 5 ECATERLPU T ae 
切 分 轨迹 〈 每 次 交换 前 后 的 数组 内 容 ) 
2.3.1.1 原 地 切 分 


如 果 使 用 一 个 辅助 数组 ， 我 们 可 以 很 容易 实现 切 分 ， 但 将 切 分 后 的 数组 复制 回去 的 开销 也 许 会 
使 我 们 得 不 偿 失 。 一 个 初级 Java 程序 员 甚至 可 能 会 将 空 数组 创建 在 递归 的 切 分 方法 中 ， 这 会 大 大 降 
低 排序 的 速度 。 
2.3.1.2 别 越界 

如 果 切 分 元 素 是 数组 中 最 小 或 最 大 的 那个 元 素 ， 我 们 就 要 小 心 别 让 扫描 指针 跑 出 数组 的 边界 。 
partition() 实现 可 进行 明确 的 检测 来 预防 这 种 情况 。 测 试 条 件 (j == 1o ) 是 元 余 的 ， 因 为 切 分 
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元 素 就 是 a[10] ， 它 不 可 能 比 自己 小 。 数 组 右 端 也 有 相同 的 情况 ， 它 们 都 是 可 以 去 掉 的 ( 请 见 练 习 
于 页 好 
2.3.1.3 ”保持 随机 性 

数组 元 素 的 顺序 是 被 打 乱 过 的 。 因 为 算法 2.5 对 所 有 的 子 数组 都 一 视 同仁 ， 它 的 所 有 子 数组 也 
都 是 随机 排序 的 。 这 对 于 预测 算法 的 运行 时 间 很 重要 。 保 持 随机 性 的 另 一 种 方法 是 在 partition() 
中 随机 选择 一 个 切 分 元 素 。 
2.3.1.4 ”终止 循环 

有 经 验 的 程序 员 都 知道 保证 循环 结束 需要 格外 小 心 ， 快 速 排序 的 切 分 循环 也 不 例外 。 正 确 地 检 
测 指针 是 否 越界 需要 一 点 技巧 ， 并 不 像 看 上 去 那么 容易 。 一 个 最 常见 的 错误 是 没有 考虑 到 数组 中 可 
能 包含 和 切 分 元 素 的 值 相同 的 其 他 元 素 。 
2.3.1.5 ”处 理 切 分 元 素 值 有 重复 的 情况 

如 算法 2.5 所 示 ， 左 侧 扫描 最 好 是 在 遇 到 大 于 等 于 切 分 元 素 值 的 元 素 时 停 下 ， 右 侧 扫描 则 是 遇 
到 小 于 等 于 切 分 元 素 值 的 元 素 时 停 下 。 尽 管 这 样 可 能 会 不 必要 地 将 一 些 等 值 的 元 素 交换 ， 但 在 某 些 
典型 应 用 中 ， 它 能 够 避免 算法 的 运行 时 间 变 为 平方 级 别 ( 请 见 练习 2.3.11 ) 。 稍 后 我 们 会 讨论 另 一 
种 可 以 更 好 地 处 理 含有 大 量 重复 值 的 数组 的 方法 。 
2.3.1.6 终止 递归 

有 经 验 的 程序 员 还 知道 保证 递归 总 是 能 够 结束 也 是 需要 小 心 的 ， 快 速 排序 也 不 例外 。 例 如 ， 实 
现 快速 排序 时 一 个 常见 的 错误 就 是 不 能 保证 将 切 分 元 素 放 入 正确 的 位 置 ， 从 而 导致 程序 在 切 分 元 素 
正好 是 子 数组 的 最 大 或 是 最 小 元 素 时 陷入 了 无 限 的 递归 循环 之 中 。 eg 


2.3.2 性 能 特点 

数学 上 已 经 对 快速 排序 进行 了 详尽 的 分 析 ， 因 此 我 们 能 够 精确 地 说 明 它 的 性 能 。 大 量 经 验 也 证 
明了 这 些 分 析 ， 它 们 是 算法 调 优 时 的 重要 工具 。 

快速 排序 切 分 方法 的 内 循环 会 用 一 个 递增 的 索引 将 数组 元 素 和 一 个 定 值 比较 。 这 种 简洁 性 
也 是 快速 排序 的 一 个 优点 ， 很 难 想象 排序 算法 中 还 能 有 上 比 这 更 短小 的 内 循环 了 。 例 如 ， 归 并 
排序 和 有希 尔 排序 一 般 都 比 快速 排序 慢 ， 其 原因 就 是 它们 还 在 内 循环 中 移动 数据 。 

快速 排序 另 一 个 速度 优势 在 于 它 的 比较 次 数 很 少 。 排 序 效 率 最 终 还 是 依赖 切 分 数组 的 效果 ， 而 
这 依赖 于 切 分 元 素 的 值 。 切 分 将 一 个 较 大 的 随机 数组 分 成 两 个 随机 子 数组 ， 而 实际 上 这 种 分 割 可 能 
发 生 在 数组 的 任意 位 置 ( 对 于 元 素 不 重复 的 数组 而 言 ) 。 下 面 我 们 来 分 析 这 个 算法 ， 看 看 这 种 方法 
和 理想 方法 之 间 的 差距 。 

快速 排序 的 最 好 情况 是 每 次 都 正好 能 将 数组 对 半分 。 在 这 种 情况 下 快速 排序 所 用 的 比较 次 数 正 
好 满足 分 治 递归 的 Cy=2CwztN 公式 。2Cwa 表示 将 两 个 子 数组 排序 的 成 本 ，N 表示 用 切 分 元 素 和 所 
有 数组 元 素 进行 比较 的 成 本 。 由 归并 排序 的 命题 F 的 证 明 可 知 ， 这 个 递归 公式 的 解 Cy~Nlgw。 尽 管 
事情 并 不 总 会 这 么 顺利 ， 但 平均 而 言 切 分 元 素 都 能 落 在 数组 的 中 间 。 将 每 个 切 分 位 置 的 概率 都 考虑 
进去 只 会 使 递归 更 加 复杂 、 更 难 解决 ， 但 最 终结 果 还 是 类 似 的 。 我 们 对 快速 排序 的 信心 来 自 于 这 个 
结论 的 证 明 。 如 果 你 不 喜欢 数学 公式 ， 可 以 跳 过 这 个 证 明 ， 相 信 它 即 可 ; 如 果 你 喜欢 ， 你 会 发 现 它 
很 有 趣 。 
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在 实际 应 用 中 ， 当 数组 元 素 可 能 重复 时 ， 精 确 的 分 析 会 相当 复杂 ， 但 不 难 证 明 即 使 存在 重复 的 
元 素 ， 平 均 比较 次 数 也 不 会 大 于 Cy ( 在 2.3.3.3 节 中 我 们 会 改进 快速 排序 在 这 种 情况 下 的 性 能 ) 。 
尽管 快速 排序 有 很 多 优点 ， 它 的 基本 实现 仍 有 一 个 潜在 的 缺点 : 在 切 分 不 平衡 时 这 个 程序 可 能 会 
极为 低 效 。 例 如 ， 如 果 第 一 次 从 最 小 的 元 素 切 分 ， 第 二 次 从 第 二 小 的 元 素 切 分 ， 如 此 这 般 ， 每 次 调用 
只 会 移 除 一 个 元 素 。 这 会 导致 一 个 大 子 数 组 需要 切 分 很 多 次 。 我 们 要 在 快速 排序 前 将 数组 随机 排序 的 
[5299 主要 原因 就 是 要 避免 这 种 情况 。 它 能 够 使 产生 粳 粒 的 切 分 的 可 能 性 降 到 极 低 ,我们 就 无 需 为 此 担心 了 。 
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总 的 来 说 ， 可 以 肯定 的 是 对 于 大 小 为 的 数组 ， 算 法 2.5 的 运行 时 间 在 1.39NlgN 的 某 个 常 
数 因子 的 范围 之 内 。 归 并 排序 也 能 做 到 这 一 点 ， 但 是 快速 排序 一 般 会 更 快 ( 尽管 它 的 比较 次 数 多 
39% ) ， 因 为 它 移动 数据 的 次 数 更 少 。 这 些 保证 都 来 自 于 数学 概率 ， 你 完全 可 以 相信 它 。 


2.3.3 ”算法 改进 
快速 排序 是 由 C.A.R Hoare 在 1960 年 发 明 的 ， 从 那 时 起 就 有 很 多 人 在 研究 并 改进 它 。 改 进 快速 
排序 总 是 那么 吸引 人 ， 发 明 更 快 的 排序 算法 就 好 像 是 计算 机 科学 届 的 “老鼠 夹子 ”， 而 快速 排序 就 是 
夹子 里 的 那 块 奶酪 。 几 乎 从 Hoare 第 一 次 发 表 这 个 算法 开始 ， 人 们 就 不 断 地 提出 各 种 改进 方法 。 并 不 
是 所 有 的 想法 都 可 行 ， 因 为 快速 排序 的 平衡 性 已 经 非常 好 ， 改 进 所 带 来 的 提高 可 能 会 被 意外 的 副作用 
所 抵消 。 但 其 中 一 些 ， 也 是 我 们 现在 要 介绍 的 ， 非 常 有 效 。 E22 
如 果 你 的 排序 代码 会 被 执行 很 多 次 或 者 会 被 用 在 大 型 数组 上 ( 特别 是 如 果 它 会 被 发 布 成 一 个 
库 函 数 ， 排 序 的 对 象 数组 的 特性 是 未 知 的 ) ， 那 么 下 面 所 讨论 的 这 些 改进 意见 值得 你 参考 。 需 要 注 
意 的 是 ， 你 需要 通过 实验 来 确定 改进 的 效果 并 为 实现 选择 最 佳 的 参数 。 一 般 来 说 它们 能 将 性 能 提升 
20% ~ 30%。 
2.3.3.1 切换 到 插入 排序 
和 大 多 数 递归 排序 算法 一 样 ， 改 进 快速 排序 性 能 的 一 个 简单 办 法 基于 以 下 两 点 : 
口 对 于 小 数组 ， 快 速 排序 比 插入 排序 慢 ; 
口 因为 递归 ,快速 排序 的 sortQ 方法 在 小 数组 中 也 会 调用 自己 。 
因此 ， 在 排序 小 数组 时 应 该 切换 到 插入 排序 。 简 单 地 改动 算法 2.5 就 可 以 做 到 这 一 点 : 将 
sortQ 中 的 语句 
if (hi <= 10) return; 
和 替换 成 下 面 这 条 语句 来 对 小 数组 使 用 插入 排序 : 
if (hi <= lo + M) { Insertion.sort(a, 10, hi); return; } 
转换 参数 M 的 最 佳 值 是 和 系统 相关 的 ,但 是 5 ~ 15 之 间 的 任意 值 在 大 多 数 情况 下 都 能 令 人 满 
意 (请 见 练习 2.3.25 ) 。 
2.3.3.2 三 取样 切 分 
改进 快速 排序 性 能 的 第 二 个 办 法 是 使 用 子 数组 的 一 小 部 分 元 素 的 中 位 数 来 切 分 数组 。 这 样 做 得 
到 的 切 分 更 好 ， 但 代价 是 需要 计算 中 位 数 。 人 们 发 现 将 取样 大 小 设 为 3 并 用 大 小 居中 的 元 素 切 分 的 
效果 最 好 ( 请 见 练习 2.3.18 和 练习 2.3.19 ) 。 我 们 还 可 以 将 取样 元 素 放 在 数组 未 尾 作为 “哨兵 ”来 
去 掉 partition() 中 的 数组 边界 测试 。 使 用 三 取样 切 分 的 快速 排序 轨迹 如 图 2.3.3 所 示 。 
2.3.3.3 ” 最 优 的 排序 
实际 应 用 中 经 常会 出 现 含有 大 量 重复 元 素 的 数组 ， 例 如 我 们 可 能 需要 将 大 量 人 员 资料 按照 生日 
排序 ， 或 是 按照 性 别 区 分 开 来 。 在 这 些 情 况 下 ， 我 们 实现 的 快速 排序 的 性 能 尚 可 ， 但 还 有 巨大 的 改 
进 空间 。 例 如 ， 一 个 元 素 全 部 重复 的 子 数组 就 不 需要 继续 排序 了 ， 但 我 们 的 算法 还 会 继续 将 它 切 分 
为 更 小 的 数组 。 在 有 大 量 重复 元 素 的 情况 下 ， 快 速 排序 的 递归 性 会 使 元 素 全 部 重复 的 子 数组 经 常 出 
现 ， 这 就 有 很 大 的 改进 潜力 ， 将 当前 实现 的 线性 对 数 级 的 性 能 提高 到 线性 级 别 。 296 
一 个 简单 的 想法 是 将 数组 切 分 为 三 部 分 ， 分 别 对 应 小 于 、 等 于 和 大 于 切 分 元 素 的 数组 元 素 。 这 
种 切 分 实现 起 来 比 我 们 目前 使 用 的 二 分 法 更 复杂 ， 人 们 为 解决 它 想 出 了 许多 不 同 的 办 法 。 这 也 是 
E. W. Dijkstra 的 荷兰 国旗 问题 引发 的 一 道 经 典 的 编程 练习 ， 因 为 这 就 好 像 用 三 种 可 能 的 主键 值 将 数 
组 排序 一 样 ， 这 三 种 主键 值 对 应 着 荷兰 国旗 上 的 三 种 颜色 。 
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297| - 图 2.3.3 .使 用 了 三 取样 切 分 和 插入 排序 转换 的 快速 排序 ( 另 见 彩 插 ) 











Dijkstra 的 解法 如 “三 向 切 分 的 快速 排序 ”中 极为 简洁 的 切 分 代码 所 示 。 它 从 左 到 右 遍 历数 组 
一 次 ,维护 一 个 指针 1t 使 得 ar[1o. .1t-1] 中 的 元 素 都 小 于 v， 一 个 指针 gt 使 得 a[gt+1. .hi] 中 
的 元 素 都 大 于 v， 一 个 指针 i 使 得 a[1t. .i-I] 中 的 元 素 都 等 于 v; a[i. .gt] 中 的 元 素 都 还 未 确定 ， 
如 图 2.3.4 所 示 。 一 开始 i 和 1o 相等 ， 我们 使 用 Comparable 接口 (而 非 less() ) 对 a[i] 进行 三 


向 比较 来 直接 处 理 以 下 情况 : 
口 a[ 订 小 于 v, 将 at] 和 a[i] 交换 ,将 1t 和 二 加 一 ; 
口 a[i] 大 于 v, 将 a[gt] 和 a[i] 交换 ,将 gt 减 一 ; 
口 a[i] 等 于 v, 将 i 加 一 。 


这 些 操作 都 会 保证 数组 元 素 不 变 是 缩小 9t-i 的 值 (这 样 循环 才 会 结束 ) 。 另 外 ， 除 非 和 切 分 


元 素 相 等 ， 其 他 元 素 都 会 被 交换 。 


2.3 快速 排序 号 





20 世纪 70 年 代 , 快速 排序 发 布 不 久 后 这 段 代码 切 分 前 阿 
就 出 现 了 ， 但 它 并 没有 流行 开 来 ， 因 为 在 数组 中 重复 区 i 
元 素 不 多 的 普通 情况 下 它 比 标准 的 二 分 法 多 使 用 了 很 中 [一 -Jv 
































多 次 交换 。90 年 代 ，J Bently 和 D. Mcllroy 找到 一 个 让 Es 

瑞明 的 方法 解决 了 这 个 问题 (请 见 练习 2322)…， 使。 ys 一 一 Oo 
得 三 向 切 分 的 快速 排序 比 归并 排序 和 其 他 排序 方法 在 T 1 1 T 
包括 重复 元 素 很 多 的 实际 应 用 中 更 快 。 之 后 ; J. Bently ~ UR Ne 
和 R. Sedgewick 证 明了 这 一 点 ， 我 们 会 在 下 面 讨论 。 图 23.4 三 向 切 分 的 示意 图 


但 我 们 已 经 证 明 过 归并 排序 是 最 优 的 。 如 何 才能 突破 它 的 下 界 ? 这 个 问题 的 答案 在 于 2.2 节 的 
命题 1 讨论 的 是 对 任意 输入 的 最 差 性 能 ,而 我 们 目前 在 讨论 时 已 经 知道 输入 数组 的 一 些 信息 了 。 对 
于 含有 以 任意 概率 分 布 的 重复 元 素 的 输入 ， 归 并 排序 无 法 保证 最 佳 性 能 。 

三 向 切 分 的 快速 排序 的 实现 如 下 所 示 。 


三 向 切 分 的 快速 排序 


public class Quick3way 
{ 





private static void sort(Comparable[] a, int 10, int hi) 
{。 // 调用 此 方法 的 公有 方法 sort() 请 见 算法 25 

if Chi: <= 10) return; 

int 1t = lo 1 = lo+1, gt = hi; 

Comparable v ~ a[1o]; 

while (1 <= gt) 

{ 

int cmp = a[i].compareTo(v); 三 


if cmp < 0) exch(a, 1t#+, i++); 
else if (cmp > 0) exch(a, i, gt--); 
else jr; 


} // 现在 a[lo..1t-l] <v= 2 .gt] < a[gt+1. .hi] 成 立 
sort(a, 10, 1t - 1); “ 
sort(a, gt + 1, hi); 





v. a[] 
1 eT ND 
- 0 011 RBWWRWBRRWBAR 
这 段 排序 代码 的 切 分 能 够 将 和 切 - :0 1 11 RB BR 
分 元 素 相等 的 元 素 归 位 ， 这 样 它们 就 不 £5 2 R WN- 8_ 一 8 一 
会 被 包含 在 递归 调用 处 理 的 子 数组 之 中 1 2 RR 于 
了 。 对 于 存在 大 量 重复 元 素 的 数组 ， 这 ws R WR 有 村 
种 方法 比 标准 的 快速 排序 的 效率 高 得 多 本 中 R s 六 
(请 见 正 文 )。 3 
三 向 分 切 的 快速 排序 的 可 视 轨迹 。 2 5 9 E We 
如 图 2.3.5 所 示 。 Se R RE 
二 和 了 R BR YW 
:2 RR RAR RK 
3 R RA “前 ;| 
: et BB BRRRRRW WY WW 


三 向 切 分 的 轨迹 《每 次 迭代 循环 之 后 的 数组 内 容 ) 
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图 2.3.5 三 向 切 分 的 快速 排序 的 可 视 轨迹 ( 另 见 彩 插 ) 





例如 ， 对 于 只 有 若干 不 同 主键 的 随机 数组 ， 归 并 排序 的 时 间 复 杂 度 是 线性 对 数 的 ， 而 三 向 切 分 
快速 排序 则 是 线性 的 。 从 上 面 的 可 视 轨迹 就 可 以 看 出 ， 主 键 值 数量 的 N 倍 是 运行 时 间 的 一 个 保守 的 
上 界 。 

这 些 准 确 的 结论 来 自 于 对 主键 概率 分 布 的 分 析 。 给 定 包含 上 个 不 同 值 的 N 个 主键 ， 对 于 从 1 到 
大 的 每 个 i 义 有 为 第 i 个 主键 值 出 现 的 次 数 ，p, 为 /WN， 即 为 随机 抽取 一 个 数组 元 素 时 第 i 个 主 
键 值 出 现 的 概率 。 那 么 所 有 主键 的 香农 信息 量 ( 对 信息 含量 的 一 种 标准 的 度量 方法 ) 可 以 定义 为 : 








Figp+Plgpi+ 十 PdgpD 
给 定 任意 一 个 待 排序 的 数组 ， 通 过 统计 每 个 主键 值 出 现 的 频率 就 可 以 计算 出 它 包含 的 信息 量 。 
值得 一 提 的 是 ， 可 以 通过 这 个 信息 量 得 出 三 向 切 分 的 快速 排序 所 需要 的 比较 次 数 的 上 下 界 。 


命题 M。 不 存在 任何 基于 比较 的 排序 算法 能 够 保证 在 NH-N 次 比较 之 内 将 N 个 元 素 排序 ， 其 中 
万 为 由 主键 值 出 现 频率 定义 的 香农 信息 量 。 








300] “上 略 证 。 将 2.2 节 的 命题 1 中 下 界 的 证 明 (相对 简单 地 ) 一 般 化 即 可 证 明 该 结论 。 








命题 N。 对 于 大 小 为 的 数组 ， 三 向 切 分 的 快速 排序 需要 ~(2In2)NE 次 比较 。 其 中 万 为 由 主键 
值 出 现 频率 定义 的 香农 信息 量 。 


略 证 。 将 命题 K 中 快速 排序 的 普通 情况 的 分 析 ( 相对 困难 地 ) 通用 化 即 可 证 明 该 结论 。 在 所 有 
主键 都 不 重复 的 情况 下 ， 它 比 最 优 解 所 需 比 较 多 39% ( 但 仍 在 常数 因子 的 范围 之 内 ) 。 


请 注意 ， 当 所 有 的 主键 值 均 不 重复 时 有 H=lgN ( 所 有 主键 的 概率 均 为 UV) ， 这 和 2.2 节 的 命 
题 1 以 及 命题 K 是 一 致 的 。 三 向 切 分 的 最 坏 情况 正 是 所 有 主键 均 不 相同 。 当 存在 重复 主键 时 ， 它 的 
性 能 就 会 比 归并 排序 好 得 多 。 更 重要 的 是 ， 这 两 个 性 质 一 起 说 明了 三 向 切 分 是 信息 量 最 优 的 ， 即 对 
于 任意 分 布 的 输入 ， 最 优 的 基于 比较 的 算法 平均 所 需 的 比较 次 数 和 三 向 切 分 的 快速 排序 平均 所 需 的 
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比较 次 数 相互 处 于 常数 因子 范围 之 内 。 

对 于 标准 的 快速 排序 ， 随 着 数组 规模 的 增 大 其 运行 时 间 会 趋 于 平均 运行 时 间 ， 大 幅 偏 离 的 情况 
非常 军 见 ， 因 此 可 以 肯定 三 向 切 分 的 快速 排序 的 运行 时 间 和 输入 的 信息 量 的 N 售 是 成 正比 的 。 在 实 
际 应 用 中 这 个 性 质 很 重要 ， 因 为 对 于 包含 大 量 重复 元 素 的 数组 ， 它 将 排序 时 间 从 线性 对 数 级 降低 到 
了 线性 级 别 。 这 和 元 素 的 排列 顺序 没有 关系 ， 因 为 算法 会 在 排序 之 前 将 其 打 乱 以 避免 最 坏 情况 。 元 
素 的 概率 分 布 决定 了 信息 量 的 大 小 ， 没 有 基于 比较 的 排序 算法 能 够 用 少 于 信息 量 决定 的 比较 次 数 完 
成 排序 。 这 种 对 重复 元 素 的 适应 性 使 得 三 向 切 分 的 快速 排序 成 为 排序 库 函数 的 最 佳 算法 选择 一 需 
要 将 包含 大 量 重复 元 素 的 数组 排序 的 用 例 很 常见 。 

经 过 精心 调 优 的 快速 排序 在 绝 大 多 数 计算 机 上 的 绝 大 多 数 应 用 中 都 会 比 其 他 基于 比较 的 排序 算 
法 更 快 。 快 速 排序 在 今天 的 计算 机 业界 中 的 广泛 应 用 正 是 因为 我 们 讨论 过 的 数学 模型 说 明了 它 在 实 
际 应 用 中 比 其 他 方法 的 性 能 更 好 ， 而 近 几 十 年 的 大 量 实验 和 经 验 也 证 明了 这 个 结论 。 

在 第 5 章 中 我 们 会 发 现 ， 这 些 并 不 是 快速 排序 发 展 的 终点 ， 因 为 有 人 研究 出 了 完全 不 需要 比较 
的 排序 算法 ! 但 快速 排序 的 另 一 个 版 本 在 那个 环境 下 仍然 是 最 棒 的 ， 和 这 里 一 样 。 


图 答疑 


间 有 没有 将 数组 平分 的 办 法 ， 而 不 是 根据 切 分 元 素 的 最 后 位 置 来 切 分 数组 ? 

答 这 个 问题 困扰 了 专家 们 十 多 年 。 这 和 用 数组 的 中 位 数 切 分 的 想法 类 似 。 我 们 在 2.5.3.4 节 中 讨论 了 寻 
找 中 位 数 的 问题 。 在 线性 时 间 内 找到 是 可 能 的 ， 但 用 现 有 的 算法 ( 基于 快速 排序 的 切 分 ) ， 这 么 做 
的 代价 远 远 超过 将 数组 平分 而 节省 的 39%。 

间 ”随机 地 将 数组 打 乱 似乎 占 了 排序 用 时 的 一 大 部 分 ， 这 么 做 值得 吗 ? 

答 值得 。 这 能 够 防止 出 现 最 坏 情况 并 使 运行 时 间 可 以 预计 。Hoare 在 1960 年 提出 这 个 算法 的 时 候 就 推 
荐 了 这 种 方法 一 一 它 是 一 种 (也 是 第 一 批 ) 偏爱 随机 性 的 算法 。 

问 为 什么 都 将 注意 力 放 在 重复 元 素 上 ? 

答 这 个 问题 直接 影响 到 实际 应 用 中 的 性 能 。 它 曾 被 忽略 了 数 十 年 ， 结 果 是 一 些 老 的 实现 对 含有 大 量 重 
复元 素 的 数组 排序 时 用 时 超过 平方 级 别 ， 这 在 实际 应 用 中 肯定 出 现 过 。 像 算法 2.5 等 较 好 的 实现 对 
于 这 种 数组 的 复杂 度 是 线性 对 数 级 别 的 ， 但 在 很 多 情况 下 ， 如 本 节 最 后 将 其 改进 为 信息 量 最 佳 的 线 
性 级 别 是 很 值得 的 。 


图 练习 


2.3.1 按照 partition() 方法 的 轨迹 的 格式 给 出 该 方法 是 如 何 切 分 数组 EASYQUESTION 的 。 

2.3.2 ”按照 本 节 中 快速 排序 所 示 轨 迹 的 格式 给 出 快速 排序 是 如 何 将 数组 EAS YQUESTION 排 
序 的 (出 于 练习 的 目的 ， 可 以 忽略 开头 打 乱 数组 的 部 分 ) 。 

2.3.3 ”对 于 长 度 为 W 的 数组 ， 在 Quick.sort() 执行 时 ， 其 最 大 的 元 素 最 多 会 被 交换 多 少 次 ? 

2.3.4 ”假如 跳 过 开头 打 乱 数组 的 操作 ， 给 出 六 个 含有 10 个 元 素 的 数组 ， 使 得 Quick.sortC) 所 需 的 比较 
次 数 达到 最 坏 情况 。 

2.3.5 ”给 出 一 段 代码 将 已 知 只 有 两 种 主键 值 的 数组 排序 。 

2.3.6 编写 一 段 代 码 来 计算 Cv 的 准确 值 ， 在 N=100、1000 和 10 000 的 情况 下 比较 准确 值 和 估计 值 
2MnN 的 差距 。 
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2.3.7 在 使 用 快速 排序 将 N 个 不 重复 的 元 素 排序 时 ， 计 算 大 小 为 0、1 和 2 的 子 数组 的 数量 。 如 果 你 喜 


欢 数 学 ， 请 推导 ;如 果 你 不 喜欢 ， 请 做 一 些 实验 并 提出 猜想 。 3 


2.3.8 ”Quick.sortQ 在 处 理 入 个 全 部 重复 的 元 素 时 大 约 需 要 多 少 次 比较 ? 
2.3.9 请 说 明 Quick.sortQ 在 处 理 只 有 两 种 主键 值 的 数组 时 的 行为 ， 以 及 在 处 理 只 有 三 种 主键 值 的 数 


2.3.10 


2.3.11 


2.3.12 


2.3.13 


2.3.14 


2.3.16 


2.3.17 


2.3.18 


2.3.19 


2.3.20 


组 时 的 行为 。 


Chebyshev 不 等 式 表明 ， 一 个 随机 变量 的 标准 差距 离 均 值 大 于 的 概率 小 于 1/P- 对 于 =100 万 ， 
用 Chebyshev 不 等 式 计算 快速 排序 所 使 用 的 比较 次 数 大 于 1000 亿 次 的 概率 (0.1N* ) 。 

假如 在 遇 到 和 切 分 元 素 重复 的 元 素 时 我 们 继续 扫描 数组 而 不 是 停 下 来 ,证明 使 用 这 种 方法 的 快速 
排序 在 处 理 只 有 若干 种 元 素 值 的 数组 时 的 运行 时 间 是 平方 级 别 的 。 

按照 代码 所 示 轨迹 的 格式 给 出 信息 量 最 佳 的 快速 排序 第 一 次 是 如 何 切 分 数组 BA B A B A B A 
CADABRA 的 。 

在 最 佳 、 平 均 和 最 坏 情况 下 ， 快 速 排序 的 递归 深度 分 别 是 多 少 ? 这 决定 了 系统 为 了 追踪 递归 调 
用 所 需 的 栈 的 大 小 。 在 最 坏 情况 下 保证 递归 深度 为 数组 大 小 的 对 数 级 的 方法 请 见 练习 2.3.20。 

证 明 在 用 快速 排序 处 理 大 小 为 N 的 不 重复 数组 时 ， 比 较 第 i 大 和 第 j 大 元 素 的 概率 为 2(j- 站 )， 并 
用 该 结论 证 明 命 题 K。 


国 提高 三 


螺丝 和 螺 帽 。(G. J.E. Rawlins) 假设 有 N 个 螺丝 和 六 个 螺 帽 混在 一 堆 ， 你 需要 快速 将 它们 配对 。 
一 个 螺丝 只 会 匹配 一 个 螺 帆 ， 一 个 螺 帽 也 只 会 匹配 一 个 螺丝 。 你 可 以 试 着 把 一 个 螺丝 和 一 个 螺 
帽 拧 在 一 起 看 看 谁 大 了 ， 但 不 能 直接 比较 两 个 螺丝 或 者 两 个 螺 帽 。 给 出 一 个 解决 这 个 问题 的 有 
效 方法 。 

最 佳 情况 ”编写 一 段 程序 来 生成 使 算法 2.5 中 的 sort0 方法 表现 最 佳 的 数组 ( 无 重复 元 素 ) : 
数组 大 小 为 Y 且 不 包含 重复 元 素 ， 每 次 切 分 后 两 个 子 数 组 的 大 小 最 多 差 1( 子 数组 的 大 小 与 仿 
有 N 个 相同 元 素 的 数组 的 切 分 情况 相同 )。( 对 于 这 道 练习 , 我 们 不 需要 在 排序 开始 时 打 乱 数组 。) 
以 下 练习 描述 了 快速 排序 的 几 个 变 体 。 它 们 每 个 都 需要 分 别 实现 ， 但 你 也 很 自然 地 希望 使 用 
SortCompare 进行 实验 来 评估 每 种 改动 的 效果 。 

哨兵 。 修 改 算法 2.5， 去 掉 内 循环 while 中 的 边界 检查 。 由 于 切 分 元 素 本 身 就 是 一 个 哨兵 (v 不 
可 能 小 于 a[1o] ) ， 左 侧 边界 的 检查 是 多 余 的 。 要 去 掉 另 一 个 检查 ， 可 以 在 打 乱 数组 后 将 数组 的 
最 大 元 素 放 在 a[Tength-1] 中 。 该 元 素 永远 不 会 移动 (除非 和 相等 的 元 素 交换 ) ， 可 以 在 所 有 
包含 它 的 子 数组 中 成 为 哨兵 。 注 意 : 在 处 理 内 部 子 数组 时 ， 右 子 数组 中 最 左 侧 的 元 素 可 以 作为 
左 子 数 组 右边 界 的 哨兵 。 

三 取样 切 分 。 为 快速 排序 实现 正文 所 述 的 三 取样 切 分 (参见 23.3.2 节 ) 。 运 行 双 信 测试 来 确认 、 
这 项 改动 的 效果 。 

五 取样 切 分 。 实 现 一 种 基于 随机 抽取 子 数组 中 5 个 元 素 并 取 中 位 数 进行 切 分 的 快速 排序 。 将 取 
样 元 素 放 在 数组 的 一 侧 以 保证 只 有 中 位 数 元 素 参 与 了 切 分 。 运 行 双 信 测试 来 确定 这 项 改动 的 效 
果 ,- 并 和 标准 的 快速 排序 以 及 三 取样 切 分 的 快速 排序 ( 请 见 上 一 道 练习 ) 进行 比较 。 附 加 题 : 
找到 一 种 对 于 任意 输入 都 只 需要 少 于 7 次 比较 的 五 取样 算法 。 

非 递 归 的 快速 排序 。 实 现 一 个 非 递归 的 快速 排序 ， 使 用 一 个 循环 来 将 弹出 栈 的 子 数 组 切 分 并 将 结 
果子 数组 重新 压 人 栈 。 注 意 : 先 将 较 大 的 子 数组 压 人 栈 , 这 样 就 可 以 保证 栈 最 多 只 会 有 1gN 个 元 素 。 


2.3.21 


2.3.22 


2.3.23 


2.3.24 





2.3.26 


2.3.27 


2.3.28 


:2.3.29 


” 略 的 效果 > 在 子 数 组 大 小 为 M 时 进行 切换 ， 将 大 小 为 W 的 不 重复 数组 排序 ， 其 中 ME10、20 和 
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将 重复 元 素 排序 的 比较 次 数 的 下 界 。 完 成 命题 M 的 证 明 的 第 一 部 分 。 参 考 命题 1 的 证 明 并 注意 
当 有 个 主键 值 时 所 有 元 素 存 在 N/A!… 太 种 不 同 的 排列 , 其 中 第 ;个 主键 值 出 现 的 频率 为 /( 即 
Npi， 按照 命题 M 的 记 法 ) ， 且 f+…+f=N。 

快速 三 向 切 分 。(J. Bently, D. Mellroy ) 用 将 排序 前 [v[ 

重复 元 素 放置 于 子 数组 两 端的 方式 实现 一 个 信息 和 丁 
量 最 优 的 排序 算法 : 使 用 两 个 索引 p 和 q， 使 得 - 
a[1o..p-1] 和 a[q+1..hi] 的 元 素 都 和 aflol ”“ 持 中 Er I~ a ~ 
相等 。 使 用 另外 两 个 案 引 1 和 j, 使 得 atp. .1-1] EE 
小 于 a[10] ,a[j 肖 ..] 大 于 a[10]。 在 内 循环 ”排序 后 | 
中 加 入 代码 ， 在 a[i] 和 v 相当 时 将 其 与 a[p] 交 | 
换 (并 将 p 加 1) , 在 afj] 和 v 相 等 且 a[i] 和 图 2.3.6 Bently-Mcllroy 三 向 切 分 
arj] 尚未 和 v 进行 比较 之 前 将 其 与 a[q] 交换 。 

涛 加 在 切 分 儿 环 结束 后 将 和 相等 的 元 素 交 换 到 正确 位 置 的 代码 ， 如 图 23.6 所 示 。 请 注意 ， 这 
里 实现 的 代码 和 正文 中 给 出 的 代码 是 等 价 的 ， 因 为 这 里 额外 的 交换 用 于 和 切 分 元 素 相等 的 元 素 ， 
而 正文 中 的 代码 将 额外 的 交换 用 于 和 切 分 元 素 不 等 的 元 素 。 
































至- 





Java 的 排序 库 函 数 。 在 练习 2.3.22 的 代码 中 使 用 Tukey'sminther 方 法 来 找 出 切 分 元 素 一 “选择 三 


组 ， 每 组 三 个 元 素 ， 分 别 取 三 组 元 素 的 中 位 数 ， 然 后 取 三 个 中 位 数 的 中 位 数 作为 切 分 元 素 ， 且 
在 排序 小 数组 时 切换 到 插入 排序 。 

取样 排序 。( W. Frazer，A. McKellar ) 实现 一 个 快速 排序 ， 取 样 大 小 为 21。 首先 将 取样 得 到 
的 元 素 排序 ， 然 后 在 递归 函数 中 使 用 样品 的 中 位 数 切 分 。 分 为 两 部 分 的 其 余 样 品 元 素 无 需 再 次 
排序 并 可 以 分 别 应 用 于 原 数组 的 两 个 子 数组 。 这 种 算法 被 称 为 取样 排序 。 


切换 到 插入 排序 。 实 现 一 个 快速 排序 ， 在 子 数组 元 素 少 于 M 时 切换 到 插入 排序 。 用 快速 排序 处 


理 大 小 和 分 别 为 10*、10'、10: 和 10 的 随机 数组 ， 根 据 经 验 给 出 使 其 在 你 的 计算 环境 中 运行 束 


度 最 快 的 M 值 s 将 M 从 0 变化 到 30 的 每 个 值 所 得 到 的 平均 运行 时 间 绘 成 曲线 。 注 意 ; -你 需要 
为 算法 2.2 添加 一 个 需要 三 个 参数 的 sort 0 方法 以 使 Insertion.sort(a，1o，hi) 将 子 数组 
a[1o. .hi] 排序 。 

子 数 组 的 大 小 。 编写 一 个 程序 ， 在 快速 排序 处 理 大 小 为 N 的 数组 的 过 程 中 ， 当 子 数组 的 大 小 小 
于 M 时 ， 排 序 方法 需要 切换 为 插入 排序 。 将 子 数组 的 大 小 绘制 成 直方 图 。 用 N=10:，M=10、20 
和 50 测试 你 的 程序 。 

忽略 小 数组 。 用 实验 对 比 以 下 处 理 小 数组 的 方法 和 练习 2.3.25 的 处 理 方法 的 效果 : 在 快速 排序 
中 直接 忽略 小 数组 ， 仅 在 快速 排序 结束 后 运行 一 次 插入 排序 。 注 意 : 可 以 通过 这 些 实验 估计 出 
电脑 的 缓存 大 小 ， 因 为 当 数组 大 小 超出 缓存 时 这 种 方法 的 性 能 可 能 会 下 降 。 

递归 深度 。 用 经 验 性 的 研究 估计 切换 姜 值 为 M 的 快速 排序 在 将 大 小 为 V 的 不 重复 数组 排序 时 的 
平均 递归 深度 ,其 中 M=10; 20 和 50，AE=10:、10、10 和 105。 

随机 化 。 用 经 验 性 的 研究 对 比 随机 选择 切 分 元 素 和 正文 所 述 的 二 开始 就 将 数组 随机 化 这 两 种 策 


50, N=10°、10:、10’ 和 10’。 
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2.3.30 极端 情况 。 用 初始 随机 化 和 非 初始 随机 化 的 快速 排序 测试 练习 2.1.35 和 练习 2.1.36 中 描述 的 大 
型 非 随机 数组 。 在 将 这 些 大 数组 排序 时 ， 乱 序 对 快速 排序 的 性 能 有 何 影响 ? 

2.3.31 运行 时 间 直 方 图 。 编 写 一 个 程序 ， 接 受命 令 行 参数 N 和 7 了， 用 快速 排序 对 大 小 为 N 的 随机 浮 点 
数 数组 进行 了 次 排序 ， 并 将 所 有 运行 时 间 绘 制 成 直方 图 。 令 N=10"、10'、10’ 和 106， 为 了 使 曲 
线 更 平滑 ，7 值 越 大 越 好 。 这 个 练习 最 关键 的 地 方 在 于 找到 适当 的 比例 绘制 出 实验 结果 。 
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”2:4 优先 队列 


许多 应 用 程序 都 需要 处 理 有 序 的 元 素 ， 但 不 一 定 要 求 它们 全 部 有 序 ， 或 是 不 一 定 要 一 次 就 将 它 
们 排序 。 很 多 情况 下 我 们 会 收集 一 些 元 素 ， 处 理 当 前 键 值 最 大 的 元 素 ， 然 后 再 收集 更 多 的 元 素 ， 再 
处 理 当前 键 值 最 大 的 元 素 ， 如 此 这 般 。 例 如 ， 你 可 能 有 一 台 能 够 同时 运行 多 个 应 用 程序 的 电脑 (或 
者 手机 ) 。 这 是 通过 为 每 个 应 用 程序 的 事件 分 配 一 个 优先 级 ， 并 总 是 处 理 下 一 个 优先 级 最 高 的 事件 
来 实现 的 。 例 如 ， 绝 大 多 数 手机 分 配给 来 电 的 优先 级 都 会 比 游戏 程序 的 高 。 

在 这 种 情况 下 ， 一 个 合适 的 数据 结构 应 该 支持 两 种 操作 ; 删除 最 大 元 素 和 插入 元 素 。 这 种 数据 
类 型 叫做 优先 队列 。 优 先 队 列 的 使 用 和 队列 删除 最 老 的 元 素 ) 以 及 栈 ( 删除 最 新 的 元 素 ) 类 似 
但 高 效 地 实现 它 则 更 有 挑战 性 。 

在 本 节 中 ， 简 单 地 讨论 优先 队列 的 基本 表现 形式 ( 其 一 或 者 两 种 操作 都 能 在 线性 时 间 内 完成 ) 
之 后 ， 我 们 会 学 习 基 于 二 又 准 数 据 结构 的 一 种 优先 队列 的 经 典 实现 方法 ， 用 数组 保存 元 素 并 按照 一 
定 条 件 排序 ，- 以 实现 高 效 地 (对 数 级 别 的 ) 删除 最 大 元 素 和 插入 元 素 操作 。 5 
优先 队列 的 一 些 重要 的 应 用 场景 包括 模拟 系统 ， 其 中 事件 的 键 即 为 发 生 的 时 间 ， 而 系统 需要 按 
照 时 间 顺 序 处 理 所 有 事件 ; 任务 调度 ， 其 中 键 值 对 应 的 优先 级 决定 了 应 该 首先 执行 哪些 任务 ; 数值 


计算 ， 键 值 代表 计算 错误 ， 而 我 们 需要 按照 刍 值 指定 的 顺序 来 修正 它们 。 在 第 6 章 中 我 们 会 学 习 一 


个 具体 的 例子 展示 优先 队列 在 粒子 碰撞 模拟 中 的 应 用 。 

通过 插 人 一 列 元 素 然后 一 个 个 地 删 掉 其 中 最 小 的 元 素 ， 我 们 可 以 用 优先 队列 实现 排序 算法 。 一 
种 名 为 堆 排序 的 重要 排序 算法 也 来 自 于 基于 堆 的 优先 队列 的 实现 。 稍 后 在 本 书 中 我 们 会 学 习 如 何 用 
优先 队列 构造 其 他 算法 。 在 第 4 章 中 我 们 会 看 到 优先 队列 如 何 恰到好处 地 抽象 若干 重要 的 图 搜索 算 
法 ; 在 第 5 章 中 ， 我 们 将 使 用 本 节 所 示 的 方法 开发 出 一 种 数据 压缩 算法 。 这 些 只 是 优先 队列 作为 算 
法 设计 工具 所 起 到 的 举足轻重 的 作用 的 一 部 分 例子 。 


2.4.1 API 


优先 队列 是 一 种 抽象 数据 类 型 ( 请 见 1.2 节 ) ， 它 表示 了 了 一 组 值 和 对 这 些 值 的 操作 ， 它 的 抽 
象 层 使 我 们 能 够 方便 地 将 应 用 程序 《用例 ) 和 我 们 将 在 本 节 中 学 习 的 各 种 具体 实现 隔离 开 米 。 和 
1.2 节 一 样 ， 我 们 会 详细 定义 一 组 应 用 程序 编程 接口 ( API ) 来 为 数据 结构 的 用 例 提供 足够 的 信息 
(参见 表 2.4.1 ) 。 优 先 队列 最 重要 的 操作 就 是 删除 最 大 元 素 和 插入 元 素 ， 所 以 我 们 会 把 精力 集中 
在 它们 身上 。 删 除 最 大 元 素 的 方法 名 为 de1Max() ， 插 和 人 元素 的 方法 名 为 insert()。 按 照 惯例 ， 
我 们 只 会 通过 辅助 函数 -1ess() 来 比较 两 个 元 素 ， 和 排序 算法 一 样 。 如 果 允 许 重复 元 素 ， 最 大 表示 





308| 











的 是 所 有 最 大 元 素 之 一 。 为 了 将 API 定 义 完整 ， 我 们 还 需要 加 入 构造 函数 ( 和 我 们 在 栈 以 及 队列 “ 


中 使 用 的 类 似 ) 和 一 个 空 队列 测试 方法 。 为 了 保证 灵活 性 ， 我们 在 实现 中 使 用 了 泛 型 ， 将 实现 了 
Comparable 接口 的 数据 的 类 型 作为 参数 Key。 这 使 得 我 们 可 以 不 必 再 区 别 元 素 和 元 素 的 键 ， 对 数 
据 类 型 和 算法 的 描述 也 将 更 加 清晰 和 简洁 。 例如, 我 们 将 用 “最 大 元 素 " 代替 “最 大 键 值 " 或 是 “ 键 
值 最 大 的 元 素 ”.。 


表 2.4.1 泛 型 优先 队列 的 APi 
public class MaxpQ<Key extends Conparable<Key>> 


MaxPQ() 3 创建 一 个 优先 队列 





Ne MaxPQCint max) 创建 一 个 最 大 容量 为 max 的 优先 队列 2 
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( 续 ) 
public class MaxPQ<Key extends Comparable<Key>> 
MaxPQ(Key[] a) 用 a[] 中 的 元 素 创建 一 个 优先 队列 

void InsertCKey v) ”向 优先 队列 中 插入 一 个 元 素 

Key maxC) ” ”返回 最 大 元 素 

Key delMax() 删除 并 返回 最 大 元 素 

boolean isEmpty©O 返回 队列 是 否 为 空 
int sizeO) 返回 优先 队列 中 的 元 素 个 数 


为 了 用 例 代码 的 方便 ，API 包含 的 三 个 构造 函数 使 得 用 例 可 以 构造 指定 大 小 的 优先 队列 ( 还 可 
以 用 给 定 的 一 个 数组 将 其 初始 化 ) 。 为 了 使 用 例 代码 更 加 清晰 ， 我 们 会 在 适当 的 地 方 使 用 另 一 个 类 
MinPQ。 它 和 MaxPQ 类 似 ， 只 是 含有 一 个 de1Min() 方法 来 删除 并 返回 队列 中 键 值 最 小 的 那个 元 素 。 
MaxPQ 的 任意 实现 都 能 很 容易 地 转化 为 MinPQ 的 实现 ， 反 之 亦 然 ， 只 需要 改变 一 下 1ess() 比较 的 
方向 即 可 。 
优先 队列 的 调用 示例 

为 了 展示 优先 队列 的 抽象 模型 的 价值 ， 考 虑 以 下 问题 : 输入 N 个 字符 串 ， 每 个 字符 串 都 对 映 
着 一 个 整数 ， 你 的 任务 就 是 从 中 找 出 最 大 的 ( 或 是 最 小 的 ) M 个 整数 ( 及 其 关联 的 字符 串 ) 。 这 
些 输 入 可 能 是 金融 事务 ， 你 需要 从 中 找 出 最 大 的 那些 ; 或 是 农产品 中 的 杀 虫 剂 含量 ， 这 时 你 需要 从 
中 找 出 最 小 的 那些 ; 或 是 服务 请 求 、 科 学 实验 的 结果 ， 或 是 其 他 应 用 。 在 某 些 应 用 场景 中 ， 输 入 量 
可 能 非常 巨大 ， 甚 至 可 以 认为 输入 是 无 限 的 。 解 决 这 个 问题 的 一 种 方法 是 将 输入 排序 然后 从 中 找 
出 M 个 最 大 的 元 素 ， 但 我 们 已 经 说 明 输入 将 会 非常 斋 大 。 另 一 种 方法 是 将 每 个 新 的 输入 和 已 知 的 
M 个 最 大 元 察 比较 ， 但 除非 M 较 小 ， 否 则 这 种 比较 的 代价 会 非常 高 晶 。 只 要 我 们 能 够 高 效 地 实现 
insert() 和 de1Min()， 下 面 的 优先 队列 用 例 中 调用 了 MinPQ 的 TopM 就 能 使 用 优先 队列 解决 这 个 
问题 ， 这 就 是 本 节 中 我 们 的 目标 。 在 现代 基础 性 计算 环境 中 超大 的 输入 N 非常 常见 ， 这 些 实现 使 我 
们 能 够 解决 以 前 缺乏 足够 资源 去 解决 的 问题 ， 如 表 2.4.2 所 示 。 


表 2.4.2 从 人 个 输入 中 找到 最 大 的 M 个 元 素 所 需 成 本 








i 增长 的 数量 级 
时 间 空间 
排序 算法 的 用 例 NgN Nn 
调用 初级 实现 的 优先 队列 NM M 
调用 基于 堆 实现 的 优先 队列 MogM M 
一 个 优先 队列 的 用 例 





public class TopM 
% 
public static void main(String[] args) 
{ // 打印 输入 流 中 最 大 的 MM 行 
int M = Integer.parseInt(args[0]); 
MinPQ<Transaction> pq = new MinpQ<Transaction>(M+1); 
while (StdIn.hasNextLineO) 
人 // 为 下 一 行 输入 创建 一 个 元 素 并 放 入 优先 队列 中 
pq.insert(new Transaction(StdIn. readLine())); 
放 (pq.sizeO > MW) 
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pq.delMinOi //- 如 果 优 先 队列 中 存在 M+H1 个 元 素 则 删除 其 中 最 小 的 元 素 
】 AV 最 大 的 M 个 元 素 都 在 优先 队列 中 


Stack<Transaction> stack = new Stack<Transaction>(); 和 
while (!pq.isEmptyO) stack.push(py.delMinO)); 
for (Transaction t : stack).StdOut.print1nCt); 
} 
} 


从 命令 行 输入 一 个 整数 M 以 及 一 系列 字符 串 ， 每 一 行 表 示 一 个 事务 。 这 段 代码 调用 了 MinPQ 并 会 
打印 数字 最 大 的 M 行 。 它 用 到 了 Transaction 类 ( 请 见 表 1.2.6， 练 习 1.2.19 和 练习 2.1.21 ) ， 构 造 了 
一 个 用 数字 作为 键 的 优先 队列 。 当 优先 队列 的 大 小 超过 MM 时 就 删 掉 其 中 最 小 的 元 素 。 所 有 事务 输入 完毕 
之 后 程序 会 从 优先 队列 中 按 递减 顺序 打印 出 最 大 的 M 个 事务 。 这 段 代码 相当 于 将 所 有 事务 放 人 一 个 栈 ， 志 

“ 历 栈 以 颠倒 它们 的 顺序 并 按照 增 序 将 它们 打印 出 来 。 


% more tinyBatch. txt 

Turing 6/17/1990 644.08 
vonNeumann 3/26/2002 4121.85 
Dijkstra 8/22/2007 2678.40 
vonNeumann 1/11/1999 4409.74 
Dijkstra 11/18/1995 837.42 





Hoare 5/10/1993 3229.27 

vonNeumann 2/12/1994 4732,35 

Hoare 8/18/1992 4381.21 

Turing 111/2002 。 66.10 

Thompson 。 2/27/2000 4747.08 

Turing 2/11/1991 2156.86 % java TopM 5 < tinyBatch,txt 
Hoare 8/12/2003 1025.70 Thompson 2/27/2000 4747.08 
vonNeunann 10/13/1993 2520.97 vonNeumann 2/12/1994 4732.35 
Dijkstra 。 9/10/2000 708.95 vonNeumann 1/11/1999 4409.74 
Turing 10/12/1993 3532.36 Hoare 8/18/1992 4381.21 
Hoare 2/10/2005 4050.20 vonNeumann 3/26/2002 4121.85 

2.4.2 - 初级 实现 


:我们 在 第 1 章 中 讨论 过 的 4 种 基础 数据 结构 是 实现 优先 队列 的 起 点 。 我 们 可 以 使 用 有 序 或 无 序 
的 数组 或 链表 。 在 队列 较 小 时 ， 大 量 使 用 两 种 主要 操作 之 一 时 ， 或 是 所 操作 元 素 的 顺序 已 知 时 ， 它 
们 士 分 有 用 。 因 为 这 些 实现 相对 简单 ， 我 们 在 这 里 只 给 出 文字 描述 并 将 实现 代码 作为 练习 (请 见 练 
习 2.43) 。 
2.4.2.1 . 数组 实现 〈 无 序 ) 一 

或 许 实现 优先 队列 的 最 简单 方法 就 是 基于 2.1 节 中 下 压 栈 的 代码 。 insertO 方法 的 代码 和 本 
的 push() 方法 完全 一 样 ,要 实现 删除 最 大 元 素 , 我 们 可 以 添加 一 段 类 似 于 选择 排序 的 内 循环 的 代码 ， 
将 最 大 元 素 和 边界 元 素 交换 然后 删除 它 ， 和 我 们 对 栈 的 pop0 方法 的 实现 一 样 。 和 栈 类 似 ， 我 们 也 
可 以 加 人 调整 才 组 大 小 的 代码 来 保证 数据 结构 中 至 少 人 有 四 分 之 一 的 元 素 而 又 水 远 不 会 溢出 。 
2.4.2.2 ”数组 实现 〈《 有 序 ) 一 

另 一 种 方法 就 是 在 insertO 方法 中 添加 代码 ， 将 所 有 较 大 的 元 素 向 右边 移动 一 格 以 使 数组 保 
持 有 序 《 和 插入 排序 一 样 ) 。 这 样 ， 最 大 的 元 素 总 会 在 数组 的 一 边 ， 优先 队列 的 出 除 最 大 元 素 扣 作 














-就 和 本 的 popO 操作 一 样 了 。。 
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2.4.2.3 ”链表 表示 法 

和 刚才 类 似 ， 我 们 可 以 用 基于 链表 的 下 压 栈 的 代码 作为 基础 ， 而 后 可 以 选择 修改 pop() 来 找到 
并 返回 最 大 元 素 ， 或 是 修改 push() 来 保证 所 有 元 素 为 北 序 并 用 pop O) 来 删除 并 返回 链表 的 首 元 素 
(也 就 是 最 大 的 元 素 ) 。 

使 用 无 序 序列 是 解决 这 个 问题 的 惰性 方法 ,我 们 仅 在 必要 的 时 候 才 会 采取 行动 ( 找 出 最 大 元 素 
使 用 有 序 序列 则 是 解决 问题 的 积极 方法 ， 因 为 我 们 会 尽 可 能 未 雨 绸 缪 ( 在 插入 元 素 时 就 保持 列表 有 
序 ) ， 使 后 续 操作 更 高 效 。 

实现 栈 或 是 队列 与 实现 优先 队列 的 最 大 不 同 在 于 对 性 能 的 要 求 。 对 于 栈 和 队列 ， 我 们 的 实现 能 
够 在 常 教 时 间 内 完成 所 有 操作 ; 而 对 于 优先 队列 ， 我 们 刚刚 讨论 过 的 所 有 初级 实现 中 ， 插 入 元 素 和 
删除 最 大 元 素 这 两 个 操作 之 一 在 最 坏 情况 下 需要 线性 时 间 来 完成 (如 表 2.4.3 所 示 ) 。 我 们 接 下 来 
要 讨论 的 基于 数据 结构 堆 的 实现 能 够 保证 这 两 种 操作 都 能 更 快 地 执行 。 


表 2.4.3 优先 队列 的 各 种 实现 在 最 坏 情况 下 运行 时 间 的 增长 数量 级 





数据 结构 插入 元 素 删除 最 大 元 素 
有 序数 组 加 1 
无 序数 组 N 





避 避 扒 
”理想 情况 


在 一 个 优先 队列 上 执行 的 一 系列 操作 如 表 2.4.4 所 示 。 
表 2.4.4 在 一 个 优先 队列 上 执行 的 一 系列 操作 
操作 参数 返回 值 大 小 内 容 《〈 无 序 ) 内 容 (有 序 
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2.4.3” 堆 的 定义 


数据 结构 二 又 堆 能 够 很 好 地 实现 优先 队列 的 基本 操作 。 在 二 叉 堆 的 数组 中 ， 每 个 元 素 都 要 保证 
大 于 等 于 另 两 个 特定 位 置 的 元 素 。 相 应 地 , 这些 位 置 的 元 素 又 至 少 要 大 于 等 于 数组 中 的 另 两 个 元 素 
以 此 类 推 。 如 果 我 们 将 所 有 元 素 画 成 一 棵 二 叉 树 ， 将 每 个 较 大 元 素 和 两 个 较 小 的 元 素 用 边 连 接 就 可 
以 很 容易 看 出 这 种 结构 。 


相应 地 ,在 堆 有 序 的 二 叉 树 中 ,每 个 结 点 都 小 于 等 于 它 的 父 结 点 ( 如 果 有 的 话 ). 从 任意 结 点 向 上 ， 
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我 们 都 能 得 到 一 列 非 递 碱 的 元 素 ; 从 任意 结 点 向 下 ， 我 们 都 能 得 到 一 列 非 递增 的 元 素 。 特 别 地 : 


命题 O。 根 结 点 是 堆 有 序 的 二 又 树 中 的 最 大 结 点 。 
证 明 。 根 据 树 的 性 质 归纳 可 得 。 


二 又 堆 表示 法 

如 果 我 们 用 指针 来 表示 堆 有 序 的 二 叉 树 ， 那 么 每 个 元 
素 都 需要 三 个 指针 来 找到 它 的 上 下 结 点 ( 父 结 点 和 两 个 子 
结 点 各 需要 一 个 ) 。 但 如 图 2.4.1 所 示 ， 如 果 我 们 使 用 完 
全 二 叉 树 ， 表 达 就 会 变 得 特别 方便 。 要 画 出 这 样 一 棵 完全 
二 叉 树 ， 可 以 先 定 下 根 结 点 ， 然 后 一 层 一 层 地 由 上 向 下 、 
从 左 至 右 ， 在 每 个 结 点 的 下 方 连接 两 个 更 小 的 结 点 ， 直 至 
将 NN 个 结 点 全 部 连接 完毕 。 完 全 二 叉 树 只 用 数组 而 不 需 


要 指针 就 可 以 表示 。 具 体 方法 就 是 将 二 叉 树 的 结 点 按照 层级 顺序 放 入 数组 中 ， 根 结 点 在 位 置 1， 它 





图 2.4.1 一 棵 堆 有 序 的 完全 二 又 树 


的 子 结 点 在 位 置 2 和 3， 而 子 结 点 的 子 结 点 则 分 别 在 位 置 4、5、6 和 7， 以 此 类 推 。 


定义 。 二 又 堆 是 一 组 能 够 用 堆 有 序 的 完全 二 又 树 排序 的 元 素 ， 并 在 数组 中 按照 层级 储存 ( 不 使 


用 数组 的 第 一 个 位 置 ) 。 


(简单 起 见 ， 在 下 文中 我 们 将 二 又 堆 简 称 为 堆 ) 在 一 个 堆 中 ， 位 置 大 的 结 点 的 父 结 点 的 位 置 为 
LW2J， 而 它 的 两 个 子 结 点 的 位 置 则 分 别 为 2k 和 2k+1。 这 样 在 不 使 用 指针 的 情况 下 (我 们 在 第 3 章 
中 讨论 二 叉 树 时 会 用 到 它们 ) 我 们 也 可 以 通过 计算 数组 的 索引 在 树 中 上 下 移动 : 从 a[k] 向 上 一 层 


就 令 k 等 于 k/2， 向 下 一 层 则 令 k 等 于 2k 或 2k+1。 


用 数组 ( 堆 ) 实现 的 完全 二 叉 树 的 结构 是 很 严格 的 ， 但 它 的 灵活 性 已 经 足以 让 我 们 高 效 地 实现 优 


先 队列 。 用 它们 我 们 将 能 实现 对 数 级 别 的 插入 3 
元 素 和 删除 最 大 元 素 的 操作 。 利 用 在 数组 中 无 a[i] 
需 指针 即 可 沿 树 上 下 移动 的 便利 和 以 下 性 质 ， 
算法 保证 了 对 数 复杂 度 的 性 能 。 


命题 P。 一 棵 大 小 为 W 的 完全 二 又 树 的 
高 度 为 LlgNj。 


证 明 。 通 过 归纳 很 容易 可 以 证 明 这 一 点 ， 
且 当 达到 2 的 肾 时 树 的 高 度 会 加 1。 


推 的 表示 如 图 2.4.2 所 示 。 


2.4.4 堆 的 算法 
我 们 用 长 度 为 N+1 的 私有 数组 pq[] 来 
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表示 一 个 大 小 为 N 的 堆 ， 我 们 不 会 i 
”使 用 pat0]， 堆 元 家 放 在 pq[ 孔 至。 《eter Pal seo 0 J} 
pq[N] 中 。 在 排序 算法 中 ， 我 们 只 通 private void exchCint 1, int j) 
过 私有 辅助 函数 less() 和 exchQ 〇 来 { Key t= pq[i]; pq[i] = pq[j]; pq[j] = ti } 
访问 元 素 ， 但 因为 所 有 的 元 素 都 在 数 
组 pq[] 中 , 我们 在 2.4.4.2 节 中 会 使 Ns 
用 更 加 紧凑 的 实现 方式 ， 不 再 将 数组 作为 参数 传递 。 堆 的 操作 会 首先 进行 一 些 简单 的 改动 ， 打 破 堆 
的 状态 , 然后 再 遍历 堆 并 按照 要 求 将 堆 的 状态 恢复 。 我 们 称 这 个 过 程 叫做 堆 的 有 序 化 ( reheapifying ) 。 

堆 实 现 的 比较 和 交换 方法 如 右上 方 的 代码 框 所 示 。 

“在 有 序 化 的 过 程 中 我 们 会 遇 到 两 种 情况 。 当 某 个 结 点 的 优先 级 上 升 ( 或 是 在 堆 底 加 入 -一 个 新 的 
元 素 ) 时 ， 我 们 需要 由 下 至 上 恢复 堆 的 顺序 。 当 某 个 结 点 的 优先 级 下 降 ( 例如 ， 将 根 结 点 替换 为 一 
个 较 小 的 元 素 ) 时 ,我 们 需要 由 上 至 下 恢复 堆 的 顺序 。 首 先 ， 我 们 会 学 习 如 何 实现 这 两 种 辅助 操作 ， 
然后 再 用 它们 实现 插入 元 素 和 删除 最 大 元 素 的 操作 。 
2.4.4.1 由 下 至 上 的 堆 有 序 化 〈 上 浮 ) 

如 果 堆 的 有 序 状态 因为 某 个 结 点 变 得 比 它 的 父 结 ”pvate Vere ee 
点 更 大 而 被 打破 ， 那 么 我 们 就 需要 通过 交换 它 和 它 的 
父 结 点 来 修复 堆 。 交 换 后 ， 这 个 结 点 比 它 的 两 个 子 结 和. 
点 都 大 ( 一 个 是 曾经 的 父 结 点 ， 另 一 个 比 它 更 小 ， 因 exch(k/2, k); 
为 它 是 曾经 父 结 点 的 子 结 点 ) ， 但 这 个 结 点 仍然 可 能 让 
比 它 现 在 的 父 结 点 更 大 。 我 们 可 以 一 遍 遍 地 用 同样 的 } 
办 法 恢复 秩序 ， 将 这 个 结 点 不 断 向 上 移动 直到 我 们 遇 
到 了 一 个 更 大 的 父 结 点 。 只 要 记 住 位 置 大 的 结 点 的 父 ”由 下 至 上 的 堆 有 序 化 (上 泽 ) 的 实现 
结 点 的 位 置 是 LK/2J， 这 个 过 程 实现 起 来 很 简单 。swim() 方法 中 的 循环 可 以 保证 只 有 位 置 上 上 的 结 
点 大 于 它 的 父 结 点 时 堆 的 有 序 状态 才 会 被 打破 。 因 此 只 要 该 结 点 不 再 大 于 它 的 父 结 点 ， 堆 的 有 序 状 
态 就 恢复 了 。 至 于 方法 名 ， 当 一 个 结 点 太 大 的 时 候 它 需要 浮 ( swim ) 到 堆 的 更 高 层 。 由 下 至 上 的 堆 
有 序 化 的 实现 代码 如 右上 方 所 示 。 

图 2.4.3 展示 的 是 由 下 至 上 的 堆 有 序 化 示意 图 。 
2.4.4.2 ”由 上 至 下 的 堆 有 序 化 〈 下 沉 ) 

如 果 堆 的 有 序 状 态 因为 某 个 结 点 变 得 比 它 的 两 个 子 结 点 或 是 其 中 之 一 更 小 了 而 被 打破 了 ， 那 么 
我 们 可 以 通过 将 它 和 它 的 两 个 子 结 点 中 的 较 大 者 交换 来 恢复 堆 。 交 换 可 能 会 在 子 结 点 处 继续 打破 堆 
的 有 序 状态 ， 因 此 我 们 需要 不 断 地 用 相同 的 方式 将 其 修复 ， 将 结 点 向 下 移动 直到 它 的 子 结 点 都 比 它 
更 小 或 是 到 达 了 堆 的 底部 。 由 位 置 为 上 的 结 点 的 子 结 点 位 于 2k 和 2k+1 可 以 直接 得 到 对 应 的 代码 。 

至 于 方法 名 ， 由 上 至 下 的 堆 有 序 化 的 示意 图 及 实现 代码 分 别 见 图 2.4.4 和 下 页 的 代码 框 。 当 一 个 结 
点 太 杰 的 时 候 它 需 要 沉 (sink ) 到 堆 的 更 低层 。 

如 果 我 们 把 堆 想 象 成 一 个 严密 的 黑社会 组 织 ， 每 个 子 结 点 都 表示 一 个 下 属 ( 父 结 点 则 表示 它 的 
直接 上 级 ):， 那 么 这 些 操作 就 可 以 得 到 很 有 趣 的 解释 。swim() 表示 一 个 很 有 能 力 的 新 人 加 入 组 织 
并 被 逐 级 提升 (将 能 力 不 够 的 上 级 踩 在 脚下 ) ， 直 到 他 遇 到 了 一 个 更 强 的 领导 。 sink(0) 则 类 似 于 
整个 社团 的 领导 退休 并 被 外 来 者 取代 之 后 ， 如 果 他 的 下 属 比 他 更 厉害 ， 他 们 的 角色 就 会 交换 ， 这 种 “ 
交换 会 持续 下 去 直到 他 的 能 力 比 其 下 属 都 强 为 这 些 理想 化 的 情景 在 现实 生活 中 可 能 很 军 见 ， 但 
它们 能 够 帮助 你 理解 堆 的 这 些 基本 行为 。 


while (k > 1 && less(k/2, k)) 
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sink() 和 swim() 方法 是 高 效 实现 优先 队列 API 的 基础 ， 原 因 如 下 ( 具体 的 实现 请 见 算法 26 ) 。 


非 有 序 状 态 
(小 于 子 结 点 ) 


(1 @) 
th de 的 A oo 
(T) GT) 
2 2 (R) 
Sp) @ (PY © W 
df db 人 


图 2.4.3 由 下 至 上 的 堆 有 序 化 (上浮 ) 图 2.4.4 由 上 至 下 的 堆 有 序 化 (下 沉 ) 


插入 元 素 。 我 们 将 新 元 素 加 到 数组 末尾 ， 
增加 堆 的 大 小 并 让 这 个 新 元 素 上 浮 到 合适 的 位 





private void sinkCint k) 


置 ( 如 图 2.4.5 左 半 部 分 所 示 ) 。 : while (2*k <= N) 
出 除 最 大 元 素 。 我 们 从 数组 顶端 出 去 最 大 《int j zok; 
的 元 素 并 将 数组 的 最后 一 个 元 素 放 到 顶端 ， 减 if G < N 68 lessG, j+1)) j++ 
小 堆 的 大 小 并 让 这 个 元 素 下 沉 到 合适 的 位 置 ( 如 Hf CessCks 1) break 
图 2.45 右 半 部 分 所 示 ) 。 kK 


算法 2.6 解决 了 我 们 在 本 节 开始 时 提出 的 一 } 
个 基本 问题 ， 它 对 优先 队列 API 的 实现 能 够 保 
证 插入 元 素 和 删除 最 大 元 素 这 两 个 操作 的 用 时 由 上 至 下 的 堆 有 序 化 (下 沉 ) 的 实现 
和 队列 的 大 小 仅 成 对 数 关系 。 
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-算法 2 6， 基于 堆 的 优先 队列 - 





public class MaxPQ<Key extends Comparable<Key>> 
4 
private Key[] pq; // 基于 堆 的 完全 按 二 又 树 
private int N = 0; // 存储 于 pq[1..N] 中 ，pq[0] 没 有 使 用 
public MaxPQCint maxN) p 
{pq = (Key[]) new Comparable[maxN+1]; } 
public boolean isEmpty() 一 
{ return N= 0; } 
public int size() -- -一 
{ return NT 了 ek 


~ public void insert(Key v) 
pq[t+N] = vi mr 
SwimCN); 


public Key delMaxC) 





{ 
.Key max = pq[1]; // 从 根 结 点 得 到 最 大 元 素 - 
exch(1, N--); // 将 美和 最 后 一 个 结 点 交接 
pq[N+1] = nul1; // 防止 越界 
Sink(1); // 恢复 堆 的 有 序 性 
“return max; 


} 


// 辅助 方法 的 实现 请 见 本 节 前 面 的 代 三 框 
private boolean lessCint-i, int j) ,本 
private void exch(int 1, int j) 
private void swimCint k) 
private void sinkCint k) 

到 


优先 队列 由 一 个 基于 堆 的 完全 二 又 柑 表示 。 存 储 于 数组 pa[1..N] 中 ，pq[0] 没有 使 用 。 在 
insertQ 中 , 我们 将 加 一 并 把 新 元 素 添加 在 数组 最 后 , 然后 用 swimO 恢复 堆 的 秩序 。 在 delMaxC 中 ， 


我 们 从 pq[1] 中 得 到 需要 返回 的 元 素 , 然后 将 pq[N] 移动 到 pq[1] , 将 N 减 一 并 用 sinkO 恢复 堆 的 秩序 。 


同时 我 们 还 将 不 再 使 用 的 pq[N+1] 设 为 nu11, 以 便 系统 回收 它 所 占用 的 空间 。 和 以 前 一 样 (请 见 43 第 )， 


， 这 里 省 略 了 动态 调整 数组 大 小 的 代码 。 其 他 的 构造 函数 请 见 练习 2.4.19。 








的 命题 Q 意 昧 着 一 个 重要 的 性 能 
突破 ， 总 结 请 见 表 2.4.3。 使 用 有 | We 





中 一 种 操作 ， 但 基于 堆 的 实现 则 能 够 保证 在 对 数 时 间 内 
完成 它们 。 这 种 差别 使 得 我 们 能 够 解决 以 前 无 法 解决 的 
问题 。 
2.4.4.3 多 叉 堆 

基于 用 数组 表示 的 完全 三 叉 树 构造 堆 并 修改 相应 的 
代码 并 不 困难 。 对 于 数组 中 1 至 的 NN 个 元 素 , 位 置 k 
的 结 点 大 于 等 于 位 于 3k--1、3k 和 3k+1 的 结 点 ， 小 于 等 
于 位 于 |(kt1)3j 的 结 点 。 甚 至 对 于 给 定 的 d， 将 其 修改 
为 任意 的 d 又 树 也 并 不 困难 。 我 们 需要 在 树 高 (logN) 
和 在 每 个 结 点 的 d 个 子 结 点 找到 最 大 者 的 代价 之 间 找 到 
折 中 ， 这 取决 于 实现 的 细节 以 及 不 同 操作 的 预期 相对 频 
繁 程度 。 

堆 上 的 优先 队列 操作 如 图 2.4.6 所 示 。 
2.4.4.4 调整 数组 大 小 

我 们 可 以 添加 一 个 没有 参数 的 构造 函数 ， 在 
insert() 中 添加 将 数组 长 度 加 倍 的 代码 ， 在 de1Max() 
中 添加 将 数组 长 度 减 半 的 代码 , 就 像 在 13 节 中 的 栈 那样 。 
这 样 ， 算 法 的 用 例 就 无 需 关 注 各 种 队列 大 小 的 限制 。 当 
优先 队列 的 数组 大 小 可 以 调整 、 队 列 长 度 可 以 是 任意 值 
时 ,命题 Q 指出 的 对 数 时 间 复 杂 度 上 限 就 只 是 针对 一 般 
性 的 队列 长 度 N 而 言 了 ( 请 见 练习 2.4.22 ) 。 
2.4.4.5 元素 的 不 可 变性 

优先 队列 存储 了 用 例 创建 的 对 象 ， 但 同时 假设 用 例 
代码 不 会 改变 它们 (改变 它们 就 可 能 打破 堆 的 有 序 性 ) 。 
我 们 可 以 将 这 个 假设 转化 为 强制 条 件 ， 但 程序 员 通常 不 
会 这 么 做 ， 因 为 增加 代码 的 复杂 性 会 降低 性 能 。 
2.4.4.6 ”索引 优先 队列 

在 很 多 应 用 中 ， 人 允许 用 例 引 用 已 经 进入 优先 队列 中 
的 元 素 是 有 必要 的 。 做 到 这 一 点 的 一 种 简单 方法 是 给 每 
个 元 素 一 个 索引 。 另 外 ， 一 -种 常见 的 情况 是 用 例 已 经 有 
了 总 量 为 W 的 多 个 元 素 ， 而 且 可 能 还 同时 使 用 了 多 个 
(平行 ) 数组 来 存储 这 些 元 素 的 信息 。 此 时 ， 其 他 无 关 
的 用 例 代 码 可 能 已 经 在 使 用 一 个 整数 索引 来 引用 这 些 元 
素 了 。 这 些 考虑 引导 我 们 设计 了 表 2.4.5 中 的 API。 
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插 和 元素 E 


o @ 
ma © 


插 和 元素 X Rn 
© 9 
CO 
插入 元 素 A G (p) 
[oi 
QQ 


插入 元 业 M .多 © 


删除 最 大 元 素 CO yp A 
Mik % 
(@) 


插 和 元素 L 


届 除 最 大 元 素 〈(P) 。 人 7 
SE 


4.6 在 堆 上 的 优先 队列 操作 





表 2.4.5 关联 索引 的 泛 型 优先 队列 的 API 
Public class IndexMinPQ<Item extends Comparable<Item>> 





IndexMinPQCint maxN)》 
void insert(int k, Item item) 
void changeCint k, Item item) 
contains(Cint k) 


创建 一 个 最 大 容量 为 maxN 的 优先 队列 ， 索 引 的 取 值 范围 
为 0 至 maxN-1 


插入 一 个 元 素 ， 将 它 和 索引 k 相关 联 
将 索引 为 k 的 元 素 设 为 item 
是 否 存在 索引 为 k 的 元 素 
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public class 


IndexMinPQ<Item extends Comparable<Item>> 








void delete(int k) 删 去 案 引 k 及 其 相关 联 的 元 素 
Item min() 返回 最 小 元 素 
int minIndexO) 返回 最 小 元 素 的 索引 
int delMin() 删除 最 小 元 素 并 返回 它 的 索引 
319| boolean isEmptyO) 优先 队列 是 否 为 空 
320| int_sizeO 优先 队列 中 的 元 素数 量 














理解 这 种 数据 结构 的 一 个 较 好 方法 是 将 它 看 成 一 个 能 够 快速 访问 其 中 最 小 元 素 的 数组 。 事 实 上 
它 还 要 更 好 一 一 它 能 够 快速 访问 数组 的 一 个 特定 子 集中 的 最 小 元 素 ( 指 所 有 被 插入 的 元 素 ) 。 换 名 
话说 ， 可 以 将 名 为 pq 的 IndexMinPQ 类 优先 队列 看 做 数组 pq[0. .N-1] 中 的 一 部 分 元 素 的 代表 。 将 
pq,insert(k， item) 看 做 将 k 加 入 这 个 子 集 并 使 pq[k] = item，pq.changeCk，item) 则 代表 令 
pq[k]=item。 这 两 种 操作 没有 改变 其 他 操作 所 依赖 的 数据 结构 ， 其 中 最 重要 的 就 是 de1Min()( 删除 
最 小 元 素 并 返回 它 的 索引 ) 和 change()( 改变 数据 结构 中 的 某 个 元 素 的 索引 一 一 即 pq[i]=item ) 。 
这 些 操作 在 许多 应 用 中 都 很 重要 并 且 依 赖 于 对 元 素 的 引用 ( 索引 ) 。 练 习 2.4.33 说 明了 如 何 用 较 少 的 
代码 将 算法 2.6 扩 展 为 极 高 效 的 索引 优先 队列 。 一 般 来 说 , 当 堆 发 生变 化 时 ,我 们 会 用 下 沉 ( 元 素 减 小 时 ) 
或 上 浮 (元 素 变 大 时 ) 操作 来 恢复 堆 的 有 序 性 。 在 这 些 操作 中 ,我 们 可 以 用 索引 查找 元 素 。 能 够 定位 
堆 中 的 任意 元 素 也 使 我 们 能 够 在 API 中 加 入 一 个 deleteO 操作 。 





命题 Q ( 续 ) 。 在 一 个 大 小 为 N 的 索引 优先 队列 中 ,插入 元 素 (insert ) 、 改 变 优先 级 ( change ) 、 
删除 (delete ) 和 删除 最 小 元 素 ( remove the minimum ) 操作 所 需 的 比较 次 数 和 logN 成 正比 (如 
表 2.4.6 所 示 ) 。 


证 明 。 已 知 堆 中 所 有 路 径 最 长 即 为 ~lgN， 从 代码 中 很 容易 得 到 这 个 结论 。 


表 2.4.6 含有 N 个 元 素 的 基于 堆 的 索引 优先 队列 所 有 操作 在 最 坏 情况 下 的 成 本 





操作 比较 次 数 的 增长 数量 级 

insertO logN 

changeO logN 

containsO 1 

deleteO logN 

minO 1 

minIndexO) 1 

delMin() logN 
tr 

这 段 讨论 针 对 的 是 找 出 最 小 元 素 的 队列 ;和 以 前 一 样 ， 我 们 也 在 本 书 网 站 上 实现 了 一 个 找 出 最 

大 元 素 的 版 本 IndexMaxPQ。 


2.4.4.7 ”索引 优先 队列 用 例 

下 面 的 用 例 调用 了 IndexMinPQ 的 代码 Mu1tiway 解决 了 多 向 归并 问题 它 将 多 个 有 序 的 输入 
流 归并 成 一 个 有 序 的 输出 流 。 许 多 应 用 中 都 会 遇 到 这 个 问题 。 输 入 可 能 来 自 于 多 种 科学 仪器 的 输出 
(按时 间 排序 ) ， 或 是 来 自 多 个 音乐 或 电影 网 站 的 信息 列表 ( 按 名 称 或 艺术 家 名 字 排 序 ) ， 或 是 商 
业 交 易 ( 按 账号 或 时 间 排 序 ) ， 或 者 其 他 。 如 果 有 足够 的 空间 ， 你 可 以 把 它们 简单 地 读 和 人 一 个 数组 
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并 排序 ,但 如 果 用 了 优先 队列 ， 无 论 输入 有 多 长 你 都 可 以 把 它们 全 部 读 信 并 排序 。 





使 用 优先 队列 的 多 向 归并 
public class Multiway 
public static void merge(In[] streams) 
int N = streams.length; 
IndexMinPQ<String> pq = new IndexMinpQ<String>(N); 


for (int 1 = 0; 1 < Ni i++) 
if (lstreams[i].isEmpty()) 
pq.insert(i, streams[i].readStringO); 


while (!pq.isEmptyO) 
{ 
Stdout.printlnCpq.minO); 
int 1 = pq.delMinO; 
if 〈!streams[i] .isEmptyO) 
pq.insert(i, streams[i].readString()); 
} 
} 
public static void main(String[] args) 
int N = args. length; 
In[] streams = new In[N]; 
for Cint 1 = 0; 1 < N; i++) 
streams[i] = new In(args[i]); 
merge(streams); 


. 
和 


这 段 代 码 调用 了 IndexMinPQ 来 将 作为 命令 行 参数 输入 的 多 行 有 序 字符 串 归并 为 一 行 有 序 的 输出 (请 
见 正文 )。 每 个 输入 流 的 索引 都 关联 着 一 个 元 素 ( 输入 中 的 下 个 字符 串 )。 初 始 化 之 后 , 代码 进入 一 个 循环 ， 
删除 并 打印 出 队列 中 最 小 的 字符 串 ， 然 后 将 该 输入 的 下 一 个 字符 串 添加 为 一 个 元 素 。 为 了 节约 ， 下 面 将 
所 有 的 输出 排 在 了 一 行 一 一 实际 输出 应 该 是 一 个 字符 串 一 行 。 


xt % java Multiway ml.txt m2.txt m3.txt 
N AABBBCDEFFCHIIJINPQQZ 





2.4.5” 堆 排序 

我 们 可 以 把 任意 优先 队列 变 成 一 种 排序 方法 。 将 所 有 元 素 插入 一 个 查找 最 小 元 素 的 优先 队列 ， 
然后 再 重复 调用 删除 最 小 元 素 的 操作 来 将 它们 按 顺 序 删 去 。 用 无 序数 组 实现 的 优先 队列 这 么 做 相当 
于 进行 一 次 插入 排序 。 用 基于 堆 的 优先 队列 这 样 做 等 同 于 哪 种 排序 ? 一 种 全 新 的 排序 方法 ! 下 面 我 
们 就 用 堆 来 实现 一 种 经 典 而 优雅 的 排序 算法 一 一 堆 排序 。 

堆 排序 可 以 分 为 两 个 阶段 。 在 堆 的 构造 阶段 中 ,我们 将 原始 数组 重新 组 织 安排 进 一 个 堆 中 ; 然 
后 在 下 沉 排 序 阶段 ,我 们 从 堆 中 按 递减 顺序 取出 所 有 元 素 并 得 到 排序 结果 。 为 了 和 我 们 已 经 学 习 过 
的 代码 保持 一 致 ， 我 们 将 使 用 一 个 面向 最 大 元 素 的 优先 队列 并 重复 删除 最 大 元 素 。 为 了 排序 的 需要 ， 
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我 们 不 再 将 优先 队列 的 具体 表示 隐藏 ， 并 将 直接 使 用 swim() 和 sinkQ 操作 。 这 样 我 们 在 排序 时 
就 可 以 将 需要 排序 的 数组 本 身 作为 堆 ， 因 此 无 需 任 何 额外 空间 。 
2.4.5.1 堆 的 构造 

由 和 个 给 定 的 元 素 构造 一 个 堆 有 多 难 ? 我 们 当然 可 以 在 与 NogN 成 正比 的 时 间 内 完成 这 项 任 
务 ， 只 需 从 左 至 右 遍 历数 组 ， 用 swim() 保证 扫描 指针 左 侧 的 所 有 元 素 已 经 是 一 棵 堆 有 序 的 完全 树 
即 可 ， 就 像 连续 向 优先 队列 中 插入 元 素 一 样 。 一 个 更 聪明 更 高 效 的 办 法 是 从 右 至 左 用 sink() 函数 
构造 子 堆 。 数 组 的 每 个 位 置 都 已 经 是 一 个 子 堆 的 根 结 点 了 ，sink() 对 于 这 些 子 堆 也 适用 。 如 果 一 
个 结 点 的 两 个 子 结 点 都 已 经 是 堆 了 ， 那 么 在 该 结 点 上 调用 sinkQ 可 以 将 它们 变 成 一 个 堆 。 这 个 过 
程 会 递归 地 建立 起 堆 的 秩序 。 开 始 时 我 们 只 需要 扫描 数组 中 的 一 半 元 素 ， 因 为 我 们 可 以 跳 过 大 小 为 
1 的 子 堆 。 最 后 我 们 在 位 置 1 上 调用 sink() 方法 ， 扫 描 结束 。 在 排序 的 第 一 阶段 ， 堆 的 构造 方法 
和 我 们 的 想象 有 所 不 同 , 因为 我 们 的 目标 是 构造 一 个 堆 有 序 的 数组 并 使 最 大 元 素 位 于 数组 的 开头 (次 
大 的 元 素 在 附近 ) 而 非 构造 函数 结束 的 末尾 。 


命题 R。 用 下 沉 操作 由 N 个 元 素 构造 堆 只 需 少 于 2N 次 比较 以 及 少 于 入 次 交换 。 


证 明 。 观 察 可 知 ， 构 造 过 程 中 处 理 的 堆 都 较 小 。 例 如 ， 要 构造 一 个 127 个 元 素 的 推 ， 我 们 会 处 
理 32 个 大 小 为 3 的 堆 ，16 个 大 小 为 7 的 堆 ，8 个 大 小 为 15 的 堆 , 4 个 大 小 为 31 的 堆 ，2 个 大 
小 为 63 的 堆 和 1 个 大 小 为 127 的 堆 ， 因 此 ( 最 坏 情况 下 ) 需要 32X1+16X2+8X3+4X4+ 
2x5+1xX6=120 次 交换 (两 倍 于 比较 ) 。 完 整 证 明 请 见 练习 2.4.20。 








堆 排 序 的 实现 过 程 如 算法 2.7 所 示 。 
算法 2.7_ 堆 排序 
public static void a[i] 
sort(Comparable[] a) N 本 通 3 和 生生 证 世 村 
{ hth 初始 值 和 
int N = a.length; 11 5 L p'EE 
eon Cint k = N/2; k >= 1; 1 市 
sinkCa, k, N); 1 3 及 R A N Et 
ne CN > 1 了 字 - AM E 
1 1 革 汪汪 R AN 
pe - Re 堆 有 序 XTSPLRAMOEE 
10 1 TpPSOL RA NE EX 
} 9 1 SpR 有 EAX 
这 段 代码 用 sink0) 方法 将 a[1] 到 于 下 2 ERA 人 
a[N] 的 元 素 排序 ( sink() 被 修改 过 ， 以 7 天 FE -0 E 8 ; 
6 1 ON E AWEDE ph x 
a[] 和 N 作 为 参数 ) 。for 循环 构造 了 堆 ， 5 
然后 while 循环 将 最 大 的 元 素 a[1] 和 a ey 
a[N] 交换 并 修复 了 堆 ， 如 此 重复 直到 堆 变 3 , x 
空 。 将 exch() 和 1ess0 的 实现 中 的 索 2 EE EAE x 
引 减 一 即 可 得 到 和 其 他 排序 算法 一 致 的 实 Fr AE RS x 
现 ( 将 a[0] 至 a[N-1] 排序 ) 。 堆 排序 排序 结果 A EE t MO Rs to 


et 堆 排序 的 轨迹 (每 次 下 沉 后 的 数组 内 容 ) 
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2.4.5.2 下 沉 排序 
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下 沉 排序 
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堆 排 序 的 主要 工作 都 是 在 第 二 阶段 完成 的 。 这 里 我 们 将 堆 中 的 最 大 元 素 删除 ， 然 后 放 入 堆 缩小 
后 数组 中 空 出 的 位 置 。 这 个 过 程 和 选择 排序 有 些 类 似 (按照 降序 而 非 升 序 取出 所 有 元 素 ) ， 但 所 需 
的 比较 要 少 得 多 ， 因 为 堆 提供 了 一 种 从 未 排序 部 分 找到 最 大 元 素 的 有 效 方法 。 
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命题 S。 将 入 个 元 素 排序 , 扒 排序 只 需 少 于 (2MIgN 
+2N) 次 比较 ( 以 及 一 半 次 数 的 交换 ) 。 


证 明 。2N 项 来 自 于 堆 的 构造 ( 见 命题 R) 。 
2MigN 项 来 自 于 每 次 下 沉 操作 最 大 可 能 需要 2lgN 
次 比较 ( 见 命题 P 与 命题 Q) 。 


算法 2.7 完整 地 实现 了 这 些 思想 ， 也 就 是 经 典 的 
堆 排序 算法 。 它 的 发 明 人 是 工 W. 工 Williams, 并 由 R. W. 
Floyd 在 1964 年 改进 。 尽 管 这 段 程序 中 循环 的 任务 各 
不 同 (第 一 段 循环 构造 堆 ， 第 二 段 循环 在 下 沉 排序 中 
销毁 堆 ) ， 它 们 都 是 基于 sink() 方法 。 我 们 将 该 实 
现 和 优先 队列 的 API 独立 开 来 是 为 了 突出 这 个 排序 算 
法 的 简洁 性 ( sortQ 方法 只 需 8 行 代码 ，sinkQ 函 
数 8 行 ) ， 并 使 其 可 以 嵌入 其 他 代码 之 中 。 

和 以 前 一 样 , 通过 研究 可 视 轨迹 ( 如 图 2.4.8 所 示 ) 
我 们 可 以 深入 了 解 算法 的 操作 。 一 开始 算法 的 行为 似 
乎 杂乱 无 章 ， 因 为 随 着 堆 的 构建 较 大 的 元 素 都 被 移动 
到 了 数组 的 开头 ， 但 接 下 来 算法 的 行为 看 起 来 就 和 选 
择 排序 一 模 一 样 了 (除了 它 比 较 的 次 数 少 得 多 ) 。 

和 我 们 学 过 的 其 他 算法 一 样 ， 很 多 人 都 研究 过 许 
多 改进 基于 堆 的 优先 队列 的 实现 和 堆 排 序 的 方法 。 我 
们 这 里 简要 地 看 看 其 中 之 一 。 
2.4.5.3” 先 下 沉 后 上 浮 

大 多 数 在 下 沉 排序 期 间 重新 插入 堆 的 元 素 会 被 直 
接 加 入 到 堆 底 。Floyd 在 1964 年 观察 发 现 ， 我 们 正 
好 可 以 通过 免 去 检查 元 素 是 否 到 达 正 确 位 置 来 节省 时 
间 。 在 下 沉 中 总 是 直接 提升 较 大 的 子 结 点 直至 到 达 堆 
底 ， 然 后 再 使 元 素 上 浮 到 正确 的 位 置 。 这 个 想法 几乎 
可 以 将 比较 次 数 减少 一 半 一 一 接近 了 归并 排序 所 需 的 
比较 次 数 ( 随机 数组 ) 。 这 种 方法 需要 额外 的 空间 ， 
因此 在 实际 应 用 中 只 有 当 比 较 操作 代价 较 高 时 才 有 用 
(例如 ， 当 我 们 在 将 字符 串 或 者 其 他 键 值 较 长 类 型 的 
元 素 进行 排序 时 ) 。 

堆 排序 在 排序 复杂 性 的 研究 中 有 着 重要 的 地 位 ， 





输入 一 


结果 





| 两 | [下 下 图 | 
hh i 


红色 的 条 目 
是 下 沉 的 元 素 


A 


黑色 的 元 素 
正在 进行 交换 





图 2.4.8 堆 排序 的 可 视 轨迹 ( 另 见 彩 插 ) 


因为 它 是 我 们 所 知 的 唯一 能 够 同时 最 优 地 利用 空间 和 时 间 的 方法 一 一 在 最 坏 的 情况 下 它 也 能 保证 使 
用 ~ 2MgN 次 比较 和 恒定 的 额外 空间 。 当 空间 十 分 紧张 的 时 候 ( 例如 在 嵌入 式 系统 或 低 成 本 的 移动 设 
备 中 ) 它 很 流行 ， 因 为 它 只 用 几 行 就 能 实现 ( 甚至 机 器 码 也 是 ) 较 好 的 性 能 。 但 现代 系统 的 许多 应 用 
很 少 使 用 它 ， 因 为 它 无 法 利用 缓存 。 数 组 元 素 很 少 和 相 邻 的 其 他 元 素 进行 比较 ， 因 此 缓存 未 命中 的 次 
数 要 远 远 高 于 大 多 数 比较 都 在 相 邻 元 素 间 进 行 的 算法 ， 如 快速 排序 、 归 并 排序 ， 甚 至 是 希 尔 排序 。 
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另 一 方面 ， 用 堆 实现 的 优先 队列 在 现代 应 用 程序 中 越 来 越 重要 ， 因 为 它 能 在 插入 操作 和 删除 最 大 


A 我 们 会 在 本 书后 续 章节 见 到 更 多 的 例子 。 


3 


问 


答 


我 还 是 不 明白 优先 队列 是 做 什么 用 的 = 为 什么 我 们 不 直接 把 元 素 排 序 然后 再 一 个 个 地 引用 有 序数 组 
中 的 元 素 ? 

在 某 些 数据 处 理 的 例子 里 ， 比 如 TopM 和 Mu1tiway， 总 数据 量 太 大 ， 无 法 排序 甚至 无 法 全 部 装 进 
内 存 ) 。 如 果 你 需要 从 10 亿 个 元 素 中 选 出 最 大 的 十 个 ， 你 真 的 想 把 一 个 10 亿 规模 的 数组 排序 码 ? 
但 有 了 优先 队列 ， 你 就 只 用 一 个 能 存储 十 个 元 素 的 队列 即 可 。 在 其 他 的 例子 中 我们 甚至 无 法 同时 
获取 所 有 的 数据 ， 因 此 只 能 先 从 优先 队列 中 取出 并 处 理 一 部 分 ， 然 后 再 根据 结果 决定 是 否 向 优先 队 
列 中 添加 更 多 的 数据 。 

为 什么 不 像 我 们 在 其 他 排序 算法 中 那样 使 用 Comparab1e 接 口 ,而 在 MaxPQ 中 使 用 泛 型 的 Ttem 呢 ? 
这 么 做 的 话 de1Max() 的 用 例 就 需要 将 返回 值 转换 为 某 种 具体 的 类 型 ， 比 如 String。 一 般 来 说 , 应 
该 尽量 避免 在 用 例 中 进行 类 型 转换 。 

为 什么 在 维 的 表示 中 不 使 用 a[0] ? < 

这 么 做 可 以 稍稍 简化 计算 。 实 现 从 0 开始 的 堆 并 不 困难 ，a[o] 的 于 结 点 是 a[1] 和 aft2]，ar] 的 
子 结 点 是 a[3] 和 ar4] ，a[2] 的 子 结 点 是 a[5] 和 a[6] ， 以 此 类 推 。 但 大 多 数 程序 员 更 喜欢 我 们 的 
简单 方法 。 另 外 ， 将 a[0] 的 值 用 作 哨 兵 《 作 为 ar 的 父 结 点 ) 在 某 些 堆 的 应 用 中 很 有 用 。 ”， 
在 我 看 来 ， 在 堆 排序 中 构造 堆 时 ， 逐 个 向 堆 中 添加 元 素 比 2.4.5.1 节 中 描述 的 由 底 向 上 的 复杂 方法 更 
简单 。 为 什么 要 这 么 做 ? 

对 于 一 个 排序 算法 来 说 ， 这 么 做 能 够 快 上 20%， 而 且 所 需 的 代码 更 少 (不 会 用 到 swimC) 函数 ) 。 
理解 算法 的 难度 并 不 一 定 与 它 的 简洁 性 或 者 效率 相关 。 

如 果 我 去 掉 MaxPQ 的 实现 中 的 extends Comparable<Key> 这 句 话 会 怎样 ? 


和 以 前 一 样 ， 回 答 这 类 问题 的 最 简单 的 办 法 就 是 你 自己 直接 试 试 。 如 果 这 么 做 sp 会 报 出 一 个 编 


译 错误 : 
MaxPQ. java:21: cannot find symbol 
Symbol : method compareTo(Ttem) 


Java 这 样 告诉 你 它 不 知道 Item 对 象 的 compareTo0) 方法 ， 因为 你 没有 声明 Item extends . 


Comparable<Item>, . 


围 疆 


2.4.1 用 序列 PRIO*R**I*T*Y***QUE***U*E (字母 表示 插入 元 素 , 星 号 表 


示 齐 除 最 大 元 素 ) 操作 一 个 初始 为 空 的 优先 队列 。 给 出 每 次 删除 最 大 元 素 返 回 的 字符 。 


2.4.2 分 析 以 下 说 法 : 要 实现 在 常数 时 间 找到 最 大 元 素 ， 为 何不 用 一 个 栈 或 队列 ， 有 已 摘 人 的 最 


大 元 素 并 在 找 出 最 大 元 素 时 返回 它 的 值 ? 


2.4.3 用 以 下 数据 结构 实现 优先 队列 ， 支 持 插入 元 素 和 删除 最 大 元 素 的 操作 : 无 序数 组 、 有 序数 组 、 无 


序 链表 和 链表 。 将 你 的 4 种 实现 中 每 种 操作 在 最 坏 情况 下 的 运行 时 间 上 下 限制 成 一 张 表格 。 


2.4.4 一 个 按 降序 排列 的 数组 也 是 一 个 面向 最 大 元 素 的 堆 吗 ? 
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2.4.5 
2.4.6 


2.4.7 


2.4.8 
2.4.9 


2.4.10 
2.4.11 
2.4.12 


2.4.13 
2.4.14 


2.4.15 
2.4.16 
2.417 


2.4.18 


2.4.19 


2.4.20 


2.4.21 
2.4.22 


2.4.23 


2.4.24 


将 EASYQUESTION 顺序 插入 一 个 面向 最 大 元 素 的 堆 中 ， 给 出 结果 。 

按照 练习 2.4.1 的 规则 , 用 序列 PRIO*R**I*T*Y***QUE***U*E 操 
作 一 个 初始 为 空 的 面向 最 大 元 素 的 堆 ， 给 出 每 次 操作 后 堆 的 内 容 。 

在 堆 中 ， 最 大 的 元 素 一 定 在 位 置 1 上 ， 第 二 大 的 元 素 一 定 在 位 置 2 或 者 3 上 。 对 于 一 个 大 小 为 31 
的 堆 , 给 出 第 大 大 的 元 素 可 能 出 现 的 位 置 和 不 可 能 出 现 的 位 置 , 其 中 好 2、3、4( 设 元 素 值 不 重复 ) 。 
回答 上 一 道 练习 中 第 大 小 元 素 的 可 能 和 不 可 能 的 位 置 。 

给 出 A B C D E 五 个 元 素 可 能 构造 出 来 的 所 有 堆 ， 然 后 给 出 A A A B B 这 五 个 元 素 可 能 构造 出 
来 的 所 有 堆 。 

假设 我 们 不 想 浪费 堆 有 序 的 数组 pq[] 中 的 那个 位 置 ， 将 最 大 的 元 素 放 在 pq[0] ， 它 的 子 结 点 放 
在 pq[1] 和 pq[2]， 以 此 类 推 。pq[k] 的 父 结 点 和 子 结 点 在 哪里 ? 

如 果 你 的 应 用 中 有 大 量 的 插入 元 素 的 操作 ， 但 只 有 若干 删除 最 大 元 素 操作 ， 哪 种 优先 队列 的 实现 
方法 更 有 效 : 堆 、 无 序数 组 、 有 序数 组 ? 

如 果 你 的 应 用 场景 中 大 量 的 找 出 最 大 元 素 的 操作 ， 但 插入 元 素 和 删除 最 大 元 素 操作 相对 较 少 ， 
哪 种 优先 队列 的 实现 方法 更 有 效 : 堆 、 无 序数 组 、 有 序数 组 ? 

想 办 法 在 sink() 中 避免 检查 j < N。 

对 于 没有 重复 元 素 的 大 小 为 W 的 堆 ， 一 次 删除 最 大 元 素 的 操作 中 最 少 要 交换 几 个 元 素 ?构造 
一 个 能 够 达到 这 个 交换 次 数 的 大 小 为 15 的 堆 。 连 续 两 次 删除 最 大 元 素 呢 ? 三 次 呢 ? 
设计 一 个 程序 ， 在 线性 时 间 内 检测 数组 pq[] 是 否 是 一 个 面向 最 小 元 素 的 堆 。 

对 于 N=32， 构 造 数组 使 得 堆 排 序 使 用 的 比较 次 数 最 多 以 及 最 少 。 

证 明 : 构造 大 小 为 大 的 面向 最 小 元 素 的 优先 队列 ， 然 后 进行 N-k 次 替换 最 小 元 素 操作 ( 删除 最 
小 元 素 后 再 插入 元 素 ) 后 ，N 个 元 素 中 的 前 大 大 元 素 均 会 留 在 优先 队列 中 。 

在 MaxPQ 中 ， 如 果 一 个 用 例 使 用 insert() 插入 了 一 个 比 队列 中 的 所 有 元 素 都 大 的 新 元 素 ， 随 
后 立即 调用 de1Max()。 假 设 没有 重复 元 素 ， 此 时 的 堆 和 进行 这 些 操作 之 前 的 堆 完全 相同 吗 ? 进 
行 两 次 insert() (第 一 次 插 人 一 个 比 队列 所 有 元 素 都 大 的 元 素 ， 第 二 次 插入 一 个 更 大 的 元 素 ) 
操作 接 两 次 de1Max() 操作 呢 ? 

实现 MaxPQ 的 一 个 构造 函数 ， 接 受 一 个 数组 作为 参数 。 使 用 正文 2.4.5.1 节 中 所 述 的 自 底 向 上 的 
方法 构造 堆 。 

证 明 ， 基于 下 沉 的 堆 构 造 方 法 使 用 的 比较 次 数 小 于 2N， 交 换 次 数 小 于 NN。 


图 提高 三 


基础 数据 结构 。 说 明 如 何 使 用 优先 队列 实现 第 1 章 中 的 栈 、 队 列 和 随机 队列 这 几 种 数据 结构 。 
调整 教 组 大 小 。 在 MaxPQ 中 加 入 调整 数组 大 小 的 代码 ， 并 和 命题 Q 一 样 证 明 对 于 一 般 性 长 度 为 
W 的 队列 其 数组 访问 的 上 限 。 

Multiway 的 堆 。 只 考虑 比较 的 成 本 且 假 设 找到 ! 个 元 素 中 的 最 大 者 需要 ! 次 比较 ， 在 堆 排序 中 使 
用 :向 堆 的 情况 下 找 出 使 比较 次 数 NgN 的 系数 最 小 的 1 值 。 首 先 ， 假 设 使 用 的 是 一 个 简单 通用 
的 sinkQ 方法 ; 其次, 假设 Floyd 方法 在 内 循环 中 每 轮 可 以 节省 一 次 比较 。 

使 用 链接 的 优先 队列 。 用 堆 有 序 的 二 叉 树 实现 一 个 优先 队列 ， 但 使 用 链表 结构 代替 数组 。 每 个 
结 点 都 需要 三 个 链接 : 两 个 向 下 ， 一 个 向 上 。 你 的 实现 即使 在 无 法 预知 队列 大 小 的 情况 下 也 能 
保证 优先 队列 的 基本 操作 所 需 的 时 间 为 对 数 级 别 。 


2.4.25 


2.4.26 


2.4.27 
2.4.28 


2.4.29 


2.4.30 


2.4.31 


2.4.32 


2.4.33 
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计算 教 论 。 编 写 程序 CubeSum.java， 在 不 使 用 额外 空间 的 条 件 下 ， 按 大 小 顺序 打印 所 有 o+ 刀 的 
结果 ， 其 中 a 和 为 0 至 入 之 间 的 整数 。 也 就 是 说 ,不 要 全 部 计算 N 个 和 然后 排序 ， 而 是 创建 
一 个 最 小 优先 队列 , 初始 状态 为 (0 0, 0 1, 0),(2),2, 0),…,(NV', N, 0)。 这 样 只 要 优先 队列 非 空 
删除 并 打印 最 小 的 元 素 (47, i, 站。 然后 如 果 j<N， 插 入 元 素 (P+0+1), i 证 1)。 用 这 段 程序 找 出 
0 到 10 之 间 所 有 满足 e+b'=c'+di 的 不 同 整数 ab,e,d。 

无 需 交 换 的 堆 。 因 为 sink() 和 swim() 中 都 用 到 了 初级 函数 exch() ， 所 以 所 有 元 素 都 被 多 加 载 
并 存储 了 一 次 。 回 避 这 种 低 效 方式 ， 用 插入 排序 给 出 新 的 实现 (请 见 练习 2.1.25) 。 

找 出 最 小 元 素 。 在 MaxPQ 中 加 入 一 个 minO 方法 。 你 的 实现 所 需 的 时 间 和 空间 都 应 该 是 常数 。 
选择 过 滤 。 编 写 一 个 TopM 的 用 例 ， 从 标准 输入 读 和 坐标 (x, y, z)， 从 命令 行 得 到 值 M， 然 后 打 
印 出 距离 原点 的 欧 几 里 德 距离 最 小 的 M 个 点 。 在 N=10'* 且 M=10* 时 ， 预 计 程 序 的 运行 时 间 。 
同时 面向 最 大 和 最 小 元 素 的 优先 队列 。 设 计 一 个 数据 类 型 ， 支 持 如 下 操作 : 插入 元 素 、 删 除 最 
大 元 素 、 删 除 最 小 元 素 ( 所 需 时 间 均 为 对 数 级 别 ) ， 以 及 找到 最 大 元 素 、 找 到 最 小 元 素 (所 需 
时 间 均 为 常数 级 别 ) 。 提 示 : 用 两 个 堆 。 

动态 中 位 数 查 找 。 设 计 一 个 数据 类 型 ， 支 持 在 对 数 时 间 内 插 和 人 元素， 常数 时 间 内 找到 中 位 数 并 在 
对 数 时 间 内 删除 中 位 数 。 提 示 : 用 一 个 面向 最 大 元 素 的 堆 再 用 一 个 面向 最 小 元 素 的 堆 。 

快速 插入 。 用 基于 比较 的 方式 实现 MinPQ 的 API， 使 得 插入 元 素 需要 ~ loglogN 次 比较 ， 删 除 
最 小 元 素 需要 ~2logN 次 比较 。 提 示 : 在 swim() 方法 中 用 二 分 查找 来 寻找 祖先 结 点 。 

下 界 。 请 证 明 ， 不 存在 一 个 基于 比较 的 对 MinPQ 的 API 的 实现 能 够 使 得 插入 元 素 和 删除 最 小 元 
素 的 操作 都 保证 只 使 用 ~NioglogN 次 比较 。 

索引 优先 队列 的 实现 。 按 照 2.4.4.6 节 的 描述 修改 算法 2.6 来 实现 索引 优先 队列 API 中 的 基本 操作 ; 
使 用 pq[] 保存 索引 ， 添 加 一 个 数组 keys[] 来 保存 元 素 ， 再 添加 一 个 数组 qp[] 来 保存 pq[] 的 
逆序 一 一 qp[i] 的 值 是 i 在 pq[] 中 的 位 置 ( 即 索 引 j，pq[j]=i ) 。 修 改 算法 2.6 的 代码 来 维护 
这 些 数据 结构 。 若 i 不 在 队列 之 中 ， 则 总 是 令 qp[i] = -1 并 添加 一 个 方法 contains 0) 来 检测 
这 种 情况 。 你 需要 修改 辅助 函数 exch() 和 less() ， 但 不 需要 修改 sinkC) 和 swim() 。 
部 分 答案 : 


public class IndexMinPQ<Key extends Comparable<Key>> 
{ 


private int N; // PQ 中 的 元 素数 量 

private int[] pq; // 索引 二 叉 堆 ， 由 1 开始 

private int[] qp; // 北 序 : qp[pq[i]] = pq[qp[i]] = i 
private Key[] keys; // 有 优先 级 之 分 的 元 素 


public IndexMinPQCint maxN) 
{ 
keys = (Key[]) new Comparable[maxN + 1]; 
pq = new int[maxN + 1]; 
qp = new int[maxN + 1]; 
for (int 1 = 0; 1 <= maxN; i++) qp[i] = -1; 
} 


public boolean isEmpty() 
{ return N==0; } 


public boolean contains(int k) 
{ return qp[k] != -1; } 
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public void insertCint k, Key key) 
{ 
NH+; 
; qp[k] = Ni 
pq[N] = ki 
keys[k] = key; 
Swim(N); 


public. Key min() 
{ return.keys[pq[1]]; 了 


public int delMinO 

儿 
int indexOfMin = pq[1]; 
exch(1, N--); 
Sink(D); 
keys[pq[N+1]] = null; 
qp[pq[N+1]] = -I; - 
return indexOfMin; 

} 





333 } 
2.4.34 索引 优先 队列 的 实现 ( 附加 操作 ) 。 向 练习 2.4.33 的 实现 中 添加 minIndex() 、changeC) 和 
delete( 方法 。 ; 
解答 : 
public int minIndex() 
{ return pq[1];. } 


public void changeCint k, Key Key) 
多 

keys[k] = key; 

swimCqp[k]); 

sinkCqp[k]); 
} 


public void deleteCint k) 
{ 

exchCk, N=-); 
Swim(Cqp[k]); 
sinkCqp[k]); 
keys[pq[N+1]] = nu11; 
qp[pq[N+1]] = 5 





1 人 
二 2.4:35， 离 族 概率 分 布 的 取样 。 编 写 一 个 Sample 类 ， 其 构造 函数 接受 一 个 double 类 型 的 数组 p[] 作为 


参数 并 支持 以 下 操作 : random() 一 一 返回 任意 索引 i 及 其 概率 p[i]/T (T 是 p[] 中 所 有 元 素 之 

和 ) ; change(Gi，v):- 一 将 p[i] 的 值 修改 为 v。 提 示 : 使 用 完全 二 叉 树 ， 每 个 结 点 对 应 一 个 

权重 p[i]。 在 每 个 结 点 记录 其 下 子 树 的 权重 之 和 。 为 了 产生 一 个 随机 的 索引 ， 取 0 到 T 之 间 的 

一 个 随机 数 并 根据 各 个 结 点 的 权重 之 和 来 判断 沿 着 哪 条 子 树 搜索 下 去 。 在 更 新 p[i] 时 ， 同 时 更 
334| 新 从 根 结 点 到 i 的 路 径 上 的 所 有 结 点 。 不 要 像 堆 的 实现 那样 显 式 使 用 指针 。 
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2.4.36 


2.4.37 
2.4.38 
2.4.39 
2.4.40 


2.4.41 


2.4.42 


性 能 测试 I。 编写 一 个 性 能 测试 用 例 ， 用 插入 元 素 操作 填 注 一 个 优先 队列 ， 然 后 用 删除 最 大 元 
素 操作 册 去 一 半 元 素 ， 再 用 插入 元 素 操作 填 注 优先 队列 , 再 用 删除 景 大 元 素 操作 阐 去 所 有 元 素 。 
用 一 列 随 机 的 长 短 不 同 的 元 素 多 次 重复 以 上 过 程 ， 测 量 每 次 运行 的 用 时 ， 打 印 平均 用 时 或 是 将 
其 绘制 成 图 表 。 Rs 

性 能 测试 世 。 编 写 一 个 性 能 测试 用 例 ， 用 插入 元 素 操作 填 满 一 个 优先 队列 ， 然 后 在 一 秒 钟 之 内 
尽 可 能 多 地 连续 反复 调用 删除 最 大 元 素 和 插入 元 素 的 操作 。 用 一 列 随机 的 长 短 不 同 的 元 素 多 次 
重复 以 上 过 程 ， 将 程序 能 够 完成 的 删除 最 大 元 素 操作 的 平均 次 数 打印 出 来 或 是 绘 成 图 表 。 

练习 测试 。 编 写 一 个 练习 用 例 ， 用 算法 2.6 中 实现 的 优先 队列 的 接口 方法 处 理 实际 应 用 中 可 能 


出 现 的 高 难度 或 是 极端 情况 。 例 如 ,元 素 已 经 有 序 、 元 素 全 部 逆序 、 元 素 全 部 相同 或 是 所 有 元 


素 只 有 两 个 值 。 l 
构造 画 数 的 代价 。 对 于 N=10?、10 和 107， 根 据 经 验 判断 堆 排序 时 构造 堆 占 总 耗 时 的 比例 。 
Floyd 方法 。 根 据 正文 中 Floyd 的 先 沉 后 浮 思 想 实现 堆 排序 。 对 于 N=10:、10* 和 10? 大 小 的 随机 
不 重复 数组 ， 记 录 你 的 程序 所 使 用 的 比较 次 数 和 标准 实现 所 使 用 的 比较 次 数 。 

Multiway 堆 。 根 据 正文 中 的 描述 实现 基于 完全 堆 有 序 的 三 丸 树 和 四 叉 树 的 堆 排序 。 对 于 
NE10、10' 和 10? 大 小 的 随机 不 重复 数组 ， 记 录 你 的 程序 所 使 用 的 比较 次 数 和 标准 实现 所 使 用 的 
比较 次 数 。 

扒 的 前 序 表 示 。 用 前 序 法 而 非 级 别 表示 一 棵 堆 有 序 的 村 ， 并 基于 此 实现 堆 排序 。 对 于 N=10'、 
10 和 10? 大 小 的 随机 不 重复 数组 ， 记 录 你 的 程序 所 使 用 的 比较 次 数 和 标准 实现 所 使 用 的 比较 
次 数 。 
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Bg 


2.5 应 用 


排序 算法 和 优先 队列 在 许多 场景 中 有 着 广泛 的 应 用 。 本 节 中 我 们 将 简要 地 浏览 一 饥 这 些 应 用 ， 
研究 如 何 能 让 我 们 已 经 学 习 过 的 高 效 算法 在 这 些 应 用 中 大 展 身手 ， 然 后 讨论 一 下 应 该 如 何 使 用 我 们 
的 排序 和 优先 队列 的 代码 

排序 如 此 有 用 的 一 个 主要 原因 是 ， 在 一 个 有 序 的 数组 中 查找 一 个 元 素 要 比 在 一 个 无 序 的 数 
组 中 查找 简单 得 多 。 估 们 用 了 一 个 多 世纪 发 现在 一 本 按 姓氏 排序 的 电话 黄页 中 查找 某 个 人 的 
电话 号 码 最 容易 。 现在， 数字 音乐 作家 们 将 歌曲 文件 按照 作家 名 或 是 歌曲 名 排序 ， 搜 索引 区 
按照 搜索 结果 的 重要 性 的 高 低 显示 结果 ， 电 子 表 格 按照 某 一 列 的 排序 结果 显示 所 有 栏 ， 和 矩阵 
处 理工 具 将 一 个 对 称 逢 阵 的 真实 特征 值 按照 降序 排列 ， 等 等 。 只 要 队列 是 有 序 的 ， 很 多 其 他 
任务 也 更 容易 完成 ， 比 如 在 本 书 最 后 的 有 序 案 引 中 查找 某 项 ,或 是 从 一 列 长 长 的 邮件 列表 或 
者 投票 人 列表 或 者 网 站 列表 中 出 去 重复 项 ， 或 是 在 统计 学 计算 中 噜 除 异常 值 、 查 找 中 位 数 或 
者 计算 比例 。 

在 许多 看 似 无 关 的 领域 中 ， 排 序 其 实 仍然 是 一 个 重要 的 于 问题 。 数 据 压缩 、 计 算 机 图 形 学 、 计 
算 生物 学 、 供应 链 管理 、 组 合 优化 、 社会 选择 和 投票 等 ， 不 一 而 足 。 我 们 在 本 章 中 学 习 的 算法 也 在 
开发 本 书 其 他 章节 的 强大 算法 的 过 程 中 起 到 了 关键 作用 。 : 

通用 排序 算法 是 最 重要 的 ,因此 我 们 首先 会 考虑 一 些 在 板 建 适用 于 多 种 情况 的 排序 算法 时 天 要 
注意 的 实际 问题 。 虽 然 部 分 话题 只 适用 于 Java， 但 每 个 问题 都 仍然 是 所 有 系统 需要 解决 的 

我 们 的 主要 目的 是 为 了 说 明 ， 尽 管 我 们 所 学 习 的 各 种 算法 的 思想 相对 简单， 但 它们 的 适用 
领域 仍然 广泛 ,经 过 验证 的 各 种 排序 算法 的 应 用 列表 很 长 ,我 们 在 这 里 只 会 涉及 其 中 的 一 小 部 分 ， 
一 些 是 科学 领域 的 ， 一 些 是 算法 领域 的 ， 还 有 一 些 是 商业 领域 的 。 在 练习 中 你 们 还 能 找到 更 多 
例子 ， 本 书 的 网 站 上 还 有 更 多 。 另外， 为 了 更 好 的 说 明 问 题 ， 后 绽 章 节 还 会 不 时 地 引用 本 章 的 
内 容 ! E 


2.5.1 将 各 种 数据 排序 


我 们 的 实现 的 排序 对 象 是 由 实现 了 Comparable 接口 的 对 象 组 成 的 数组 。Java 的 约定 使 得 我 
们 能 够 利用 Java 的 回调 机 制 将 任意 实现 了 Comparable 接口 的 数据 类 型 排序 。 如 2.1 节 所 述 ， 实 现 
Comparable 接口 只 需要 定义 一 个 compareTo() 函数 并 在 其 中 定义 该 数据 类 型 中 的 大 小 关系 。 我 们 
的 代码 直接 能 够 将 String、Integer 、Double 和 一 些 其 他 例如 FiTe 和 URL 类 型 的 数组 排序 ， 因 
为 它们 都 实现 了 Comparable 接口 。 同 一 段 代码 能 够 适应 所 有 这 些 类 型 的 数据 是 非常 方便 的 ， 但 一 
般 的 应 用 程序 中 需要 排序 的 数据 类 型 都 是 应 用 程序 自己 定义 的 。 相 应 ， 在 自 定义 的 数据 类 型 中 实现 - 
一 个 compareToQ 方法 也 是 很 常见 的 ， 这 样 就 实现 了 Comparable 接口 ， 也 就 使 得 这 种 数据 类 型 
可 以 被 排序 了 【也 可 以 用 其 构造 优先 队列 ) 。 
2.5.1.1 交易 事务 

:排序 算法 的 一 种 典型 应 用 就 是 商业 数据 处 理 。 例 如 ， 设 想 一 家 互联 网 商业 公司 为 每 笔 交易 记录 
都 保存 了 所 有 的 相关 信息 ， 包 括 客户 名 、 日 期 、 金 额 等 。 如 今 ， 一 家 成 功 的 商业 公司 需要 能 够 处 理 
数 百 万 的 这 种 交易 数据 。 如 我 们 在 练习 2.1.21 中 看 到 的 ， 一 种 合适 的 方法 是 将 交易 记录 按 金 额 大 小 
排序 ， 我 们 在 类 的 定义 中 实现 二 个 恰当 的 compareTo() 方法 就 可 以 做 到 这 一 点 。 这 样 我 们 在 处 理 - 
Transaction 类 型 的 数组 a[] 时 就 可 以 先 将 其 排序 ， 比 如 这 样 Quick.sortCa)。 我 们 的 排序 算法 
对 Transaction 类 型 一 无 所 知 ， 但 Java 的 Comparabte 接口 使 我 们 可 以 为 该 类 型 定义 大 小 关系 ， 
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这 样 我 们 的 任意 排序 算法 都 能 够 用 于 Transaction 对 象 了 。 或 者 我 们 也 可 以 令 Transaction 对 象 
按照 日 期 排序 《 如 下 面 的 代码 所 示 ) ,将 compareTo() 方法 实现 为 比较 Date 字段 。 因 为 Date 对 
象 本 身 也 实现 了 Comparab1e 接口 ,我 们 可 以 直接 调用 它 的 compareTo() 方法 而 不 用 自己 实现 了 。 
将 这 种 类 型 按照 用 户 名 排序 也 是 合理 的 。 使 算法 的 用 例 能 够 灵活 地 用 不 同 的 字段 排序 则 是 我 们 在 稍 
后 将 要 面 对 的 另 一 项 有 趣 的 挑战 。 


public int compareTo(Transaction that) 
{ return this.when.compareTo(that.when); } 


将 交易 记录 按照 日 期 排序 的 compareTo() 方 法 


2.5.1.2 ”指针 排序 

我 们 使 用 的 方法 在 经 典 教材 中 被 称 为 指针 排序 , 因为 我 们 只 处 理 元 素 的 引用 而 不 移动 数据 本 身 。 
在 其 他 编程 语言 例如 C 和 C++ 之 中 ， 程 序 员 需 要 明确 地 指出 操作 的 是 数据 还 是 指向 数据 的 指针 ， 
而 在 Java 中 ， 指 针 操作 是 隐 式 的 。 除 了 原始 数字 类 型 之 外 ,我们 操作 的 总 是 数据 的 引用 ( 指针 ) ， 
而 非 数据 本 身 。 指 针 排序 增加 了 一 层 间接 性 , 因为 数组 保存 的 是 待 排序 的 对 象 的 引用 , 而 非 对 象 本 身 。 
我 们 会 简要 讨论 一 些 相关 的 问题 。 对 于 多 个 引用 数组 ， 我 们 可 以 将 同一 组 数据 的 不 同 部 分 按照 多 种 
方式 排序 ( 可 能 会 用 到 下 面 提 到 的 多 键 ) 。 
2.5.1.3 不 可 变 的 键 

如 果 在 排序 后 用 例 还 能 够 修改 键 值 ， 那 么 数组 就 很 可 能 不 再 是 有 序 的 了 。 类 似 ， 优 先 队列 在 
用 例 能 够 修改 键 值 的 情况 下 也 不 太 可 能 正常 工作 。 在 Java 中 ， 可 以 用 不 可 变 的 数据 类 型 作为 键 来 
避免 这 个 问题 。 大 多 数 你 可 能 用 作 键 的 数据 类 型 ， 例 如 String、Integer、Double 和 File 都 是 
不 可 变 的 。 
2.5.1.4 ”廉价 的 交换 

使 用 引用 的 另 一 个 好 处 是 我 们 不 必 移动 整个 元 素 。 对 于 元 素 大 而 键 小 的 数组 来 说 这 带 来 的 节 
约 是 巨大 的 ， 因 为 比较 只 需要 访问 元 素 的 一 小 部 分 ， 而 排序 过 程 中 大 部 分 元 素 都 不 会 被 访问 到 。 
对 于 几乎 任意 大 小 的 元 素 ， 使 用 引用 使 得 在 一 般 情 况 下 交换 的 成 本 和 上 比较 的 成 本 几乎 相同 ( 代价 
是 需要 额外 的 空间 存储 这 些 引用 ) 。 如 果 键 值 很 长 ， 那 么 交换 的 成 本 甚至 会 低 于 比较 的 成 本 。 研 
究 将 数字 排序 的 算法 性 能 的 一 种 方法 就 是 观察 其 所 需 的 比较 和 交换 总 数 ， 因 为 这 里 隐 式 地 假设 了 
比较 和 交换 的 成 本 是 相同 的 。 由 此 得 出 的 结论 则 适用 于 Java 中 的 许多 应 用 ， 因 为 我 们 都 是 在 将 引 
用 排序 。 
2.5.1.5 ”多 种 排序 方法 

在 很 多 应 用 中 我 们 都 希望 根据 情况 将 一 组 对 象 按照 不 同 的 方式 排序 。Java 的 Comparator 接 
口 允许 我 们 在 一 个 类 之 中 实现 多 种 排序 方法 。 它 只 有 一 个 compare() 方法 来 比较 两 个 对 象 。 如 果 
一 种 数据 类 型 实现 了 这 个 接口 ， 我 们 可 以 像 2.5.1.6 节 中 的 例子 那样 将 另 一 个 实现 了 Comparator 
接口 的 对 象 传递 给 sort() 方法 ( sort() 再 将 其 传递 给 less() ) 。Comparator 接口 允许 我 们 
为 任意 数据 类 型 定义 任意 多 种 排序 方法 。 用 Comparator 接口 来 代替 Comparable 接口 能 够 更 好 
地 将 数据 类 型 的 定义 和 两 个 该 类 型 的 对 象 应 该 如 何 比较 的 定义 区 分 开 来 。 事 实 上 ， 比 较 两 个 对 象 
的 确 可 以 有 多 种 标准 ，Comparator 接口 使 得 我 们 能 够 在 其 中 进行 选择 。 例 如 ， 想 在 忽略 大 小 写 
的 情况 下 将 字符 串 数组 a[] 排序 ， 可 以 使 用 Java 的 String 类 型 中 定义 的 CASE_INSENSITVE_ 
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ORDER 比较 器 并 调用 Insertion.sort(a， String. CASE. INSENSITIVE_ORDER), 你 也 知道 ， 精 
确定 义 的 字符 串 排序 规则 十 分 复杂 ， 而 各 种 自然 语言 又 差异 很 大 ， 所 以 Java 的 String 类 型 含有 
很 多 比较 器 。 
2.5.1.6 多 键 数组 
一 般 在 应 用 程序 中 ,一 个 元 素 的 多 种 属性 都 可 能 被 用 作 排 序 的 键 。 在 交易 的 例子 中 ， 有 时 
可 能 需要 将 交易 按照 客户 排序 ( 例如 ， 找 出 每 个 客户 进行 的 所 有 交易 ) ; 有 时 又 可 能 需要 按 
照 金额 排序 ( 例如 ， 需 要 找 出 交易 金额 较 高 的 交易 ) ; 有 时 还 可 能 用 另 一 个 属性 来 排序 。 要 
实现 这 种 灵活 性 ，Comparator 接口 正 合 适 。 我 们 可 以 定义 多 种 比较 器 ， 如 2.5.1.7 节 展 示 的 
Transaction 类 的 另 一 种 实现 那样 。 在 这 样 定 义 之 后 ， 要 将 Transaction 对 象 的 数组 按照 时 
间 排序 可 以 调用 : 
Insertion.sort(a，new Transaction.WhenOrderO) 
或 者 这 样 来 按照 金额 排序 : 
Insertion.sort(a, new Transaction.HowMuchOrderO)) 


sort 0) 方法 在 每 次 比较 中 都 会 回调 Transaction 类 中 用 例 指定 的 compare() 方法 。 为 了 避免 
每 次 排序 都 创建 一 个 新 的 Comparator 对 象 ， 我 们 使 用 了 pub1ic final 来 定义 这 些 比较 器 ( 代码 
如 下 ， 就 像 Java 定义 的 CASE_INSENSITIVE_ORDER 一 样 ) 。 


public static void sort(Object[] a, Comparator c) 
{ 
int N = a.length; 
for Cint i = 1; i < N; i++) 
for (int j = i; j > 0 && less(c, a[j], alj-1]); j--) 
exchGa, j, j-D; : 





} 


private static boolean less(Comparator c, Object v, Object w) 
{ return c.compare(v, w) < 0; } 


private static void exch(Object[] a, int i, int j) 
{ Object t = a[i]; afi] = a[lj]; alj] = t; } 
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2.5.1.7 ”使 用 比较 器 实现 优先 队列 
比较 器 的 灵活 性 也 可 以 用 在 优先 队列 上 。 我 们 可 以 按照 以 下 步骤 来 扩展 算法 2.6 的 标准 实现 来 
支持 比较 器 ; je 
口 导入 java.util.Comparator; 
口 为 MaxPQ 添加 一 个 实例 变量 comparator 以 及 一 个 构造 函数 ， 该 构造 函数 接受 一 个 比较 器 
作为 参数 并 用 它 将 comparator 初始 化 ; 
口 在 1essQO 中 检查 comparator 属性 是 否 为 nu11 ( 如 果 不 是 的 话 就 用 它 进行 比较 ) 。 
实现 代码 如 下 : 
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import java.uti1.Comparator 


public class Transaction 


private final String who; 
private final Date when; 
private final double amount; 


public static class WhoOrder implements Comparator<Transaction> 


public int compare(Transaction v, Transaction w) 
{ return v.who.compareTo(w.who); } 


public static class WhenOrder implements Comparator<Transaction> 
和 


public int compare(Transaction v，Transaction w) 
{ return v.when.compareTo(w.when); } 
} 


public static class HowMuchOrder implements Comparator<Transaction> 
public int compare(Transaction v, Transaction w) 


if (v.amount < w.amount) return -1; 
if (v.amount > W.amount) return +1; 3 
return 0; 0 


使 用 Tcomparator 的 插入 排序 


例如 ,修改 后 可 以 使 用 Transaction 的 多 种 字段 构造 不 同 的 优先 队列 ， 分 别 按照 时 间 、 地 点 、 
账号 排序 。 如 果 你 在 MinPQ 中 去 掉 了 Key extends Comparable<Key> 这 句 话 ， 甚 至 可 以 支持 尚 
未 定义 过 比较 方法 的 键 。 340 
,2.5.1.8 稳定 性 - 

如 果 一 个 排序 算法 能 够 保留 数组 中 重复 元 素 的 相对 位 置 则 可 以 被 称 为 是 稳定 的 。 这 个 性 质 在 许 
多 情况 下 很 重要 。 例 如 ， 考 虑 一 个 需要 处 理 大 量 含有 地 理 位 置 和 时 间 蕉 的 事件 的 互联 网 商业 应 用 程 
序 。 首 先 ， 我 们 在 事件 发 生 时 将 它们 挨个 存储 在 一 个 数组 中 ， 这 样 在 数组 中 它们 已 经 是 按照 时 间 顺 
序 排 好 了 的 。 现 在 假设 在 进一步 处 理 前 将 按照 地 理 位 置 切 分 。 一 种 简单 的 方法 是 将 数组 按照 位 置 排 
序 。 如 果 排 序 算法 不 是 稳定 的 ， 排 序 后 的 每 个 城市 的 交易 可 能 不 会 再 是 按照 时 间 顺 序 排列 的 了 。 很 
多 情况 下 ， 不 熟悉 排序 稳定 性 的 程序 员 在 第 一 次 遇见 这 种 情形 时 会 惊讶 于 不 稳定 的 排序 算法 似乎 把 
数据 弄 得 二 团 粮 。 在 本 章 中 ， 我 们 学 习 过 的 一 部 分 算法 是 稳定 的 ( 插入 排序 和 归并 排序 ) ， 但 很 多 

- ”不 是 (选择 排序 、 希 尔 排序 、 快 速 排序 和 堆 排 序 ) 。 有 很 多 办 法 能 够 将 任意 排序 算法 变 成 稳定 的 (请 

见 练习 2.5.18 ) ,但 一 般 只 有 在 稳定 性 是 必要 的 情况 下 稳定 的 排序 算法 才 有 优势 。 人 们 很 容易 觉得 
算法 具有 稳定 性 是 理所当然 的 ， 但 事实 上 没有 任何 实际 应 用 中 常见 的 方法 不 是 用 了 大 量 额外 的 时 间 
和 空间 才 做 到 了 这 一 点 (研究 人 员 开发 了 这 样 的 算法 , 但 应 用 程序 员 发 现 它们 太 复杂 了 , 无 法 使 用 ) 。 

从 另 一 个 键 上 排序 的 稳定 性 如 图 2.5.1 所 示 。 i 
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按照 时 间 排序 按照 地 理 位 置 排序 (不 稳定 ) 按照 地 理 位 置 排序 稳定 ) 

7 Chicago 09:00:00 Chicago 09:00:00 
Phoenix 09:00:03 
Houston 09:00:13 
Chicago 09:00:59 
Houston ”09:01:10 
Chicago 09:03:13 
Seattle 09:10:11 
Seattle 09:10:25 
Phoenix 
Chicago 







Houston 09. 


不 再 时 Houston 09: 仍然 时 


Chicago 间 有 序 Phoenix 09 间 有 序 
Chicago Phoenix 09， 

Seattle Phoenix 09:37; 

Seattle Seattle 09: 

Chicago Seattle 09: 

Chicago Seattle 09 

“Seattle Seattle 09 


59 
rd 
32 
46 
05 
52 
也 
13 
10 
3 
5 
44 
1 
5 
3 
4 
4 


Seattle 09; 


图 2.5.1 .从 另 一 个 键 上 排序 的 稳定 性 





Phoenix 





2.5.2 “我 应 该 使 用 哪 种 排序 算法 ， 

在 本 章 中 我 们 学 习 了 许多 种 排序 算法 ， 这 个 问题 就 变 得 很 自然 了 。 排 序 算法 的 好 坏 很 大 程度 上 
取决 于 它 的 应 用 场景 和 具体 实现 ， 但 我 们 也 学 习 了 一 些 通用 的 算法 ， 它 们 能 在 很 多 情况 下 达到 和 最 
佳 算法 接近 的 性 能 。 

表 2.5.1 总 结 了 在 本 章 中 我 们 学 习 过 的 排序 算法 的 各 种 重要 性 质 。 除 了 项 尔 排序 它 的 复杂 度 
只 是 一 个 近似 ) 、 插 入 排序 ( 它 的 复杂 度 取决 于 输入 元 素 的 排列 情况 ) 和 快速 排序 的 两 个 版 本 ( 它 “ 
们 的 复杂 度 和 概率 有 关 ， 取 决 于 输入 元 素 的 分 布 情况 ) 之 外 ， 将 这 些 运行 时 间 的 增长 数量 级 乘 以 适 
当 的 常数 就 能 够 大 致 估计 出 其 运行 时 间 。 这 里 的 常数 有 时 和 算法 有 关 ( 比如 堆 排 序 的 比较 次 数 是 归 
并 排序 的 两 倍 ， 且 两 者 访问 数组 的 次 数 都 比 快速 排序 多 得 多 ) ， 但 主要 取决 于 算法 的 实现 、Java 编 
译 器 以 及 你 的 计算 机 ， 这 些 因 素 决定 了 需要 执行 的 机 器 指令 的 数量 以 及 每 条 指令 所 需 的 执行 时 间 。 
最 重要 的 是 ， 因 为 这 些 都 是 常数 ， 你 能 通过 较 小 的 入 得 到 的 实验 数据 和 我 们 的 标准 双 信 测试 来 推测 
较 大 的 入 所 需 的 运行 时 间 。 


表 2.5.1 各 种 排序 算法 的 性 能 特点 





将 个 元 素 排序 的 复杂 度 
一 -将 个 元 素 排序 的 复杂 度 ; 
算法 。 是 否 物证 是 否 为 原 地 排序 时间 复 条 度 ”空间 各 订 度 备注 

选择 排序 否 是 下 1 
插入 排序 是 是 介 于 N 和 NM 之 间 1 取决 于 输入 元 素 的 排列 情况 
看 尔 排序 否 是 Ne 1 
快速 排序 理 是 MogN 18N 运行 效率 由 概率 提供 保证 
Es 介 于 N 和 MogN 运行 效率 由 概率 保证 ， 同 时 也 

OA 芷 之 间 8Y 。。 取决 于 输入 元 素 的 分 布 情况 
归并 排序 是 理 NMogN N 
堆 排 序 否 是 MogN 1 
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性 质 T。 快 速 排序 是 最 快 的 通用 排序 算法 。 


例证 。 自 从 数 十 年 前 快速 排序 发 明 以 来 ， 人 在 天 娄 计 系统 的 天 类 已经 证 明了 让， 
总 的 来 说 ， 快 速 排序 之 所 以 最 快 是 因为 它 的 内 循环 中 的 指令 很 少 《 而 且 它 还 能 利用 缓存 ， 因 为 
它 总 是 怖 序 好 访问 数据 】 ， 所 以 它 的 运行 时 间 的 增长 数量 级 为 ~eNIBN， 而 这 里 的 比 其 他 线性 
对 数 级 别 的 排序 算法 的 相应 常数 都 要 小 。 在 使 用 三 向 切 分 之 后 ， 快 速 排序 对 于 实际 应 用 中 可 能 
出 现 的 基 些 分 布 的 输入 变 成 线性 级 别 的 了 ， 而 其 他 的 排序 算法 则 仍然 需要 线性 对 数 时 间 。 








因此 ， 在 大 多 数 实际 情况 中 ， 快 速 排序 是 最 佳 选 择 。 当 然 ， 面 对 多 种 排序 方法 和 各 式 计算 
机 及 系统 ， 这 么 一 名 干 巴巴 的 话 很 难 让 人 信服 。 例如， 我 们 已 经 见 过 一 个 明显 的 例外 : 如 果 稳 定 
性 很 重要 而 空间 又 不 是 问题 ， 归 并 排序 可 能 是 最 好 的 。 我 们 会 在 第 5 章 中 见 到 更 多 例外 。 有 了 
SortCompare 这 样 的 工具 ， 再 加 上 一 点 时 间 和 努力 ， 你 能 够 更 仔细 地 比较 这 些 算法 的 性 能 并 实现 我 
们 讨论 过 的 各 种 改进 方案 ， 详 见 本 节 最 后 的 若干 练习 。 也 许 证 明 性 质 T 的 最 好 方式 正如 这 里 所 说 ， 
在 运行 时 间 至 关 重 要 的 任何 排序 应 用 中 认真 地 考虑 使 用 快速 排序 。 
2.5.2.1 将 原始 类 型 数据 排序 . 

一 些 性 能 优先 的 应 用 的 重点 可 能 是 将 数字 排序 ， 因 此 更 合理 的 做 法 是 跳 过 引用 直接 将 原始 数据 
类 型 的 数据 排序 。 例 如 ， 想 想 将 一 个 double 类 型 的 数组 和 一 个 Double 类 型 的 数组 排序 的 差别 。 
对 于 前 者 我 们 可 以 直接 交换 这 些 数 并 将 数组 排序 ;而 对 于 后 者 ， 我 们 交换 的 是 存储 了 这 些 数字 的 
Double 对 象 的 引用 。 如 果 我 们 只 是 在 将 一 大 组 数 排序 的 话 ， 跳 过 引用 可 以 为 我 们 节省 存储 所 有 引 
用 所 需 的 空间 和 通过 引用 来 访问 数字 的 成 本 ， 更 不 用 说 那些 调用 compareTo() 和 1ess() 方法 的 
开销 了 ;把 Comparable 接口 替换 为 原始 数据 类 型 名 ， 重 定义 less 0) 方法 或 者 干脆 将 调用 .less () 
的 地 方 将 换 为 a[i] < a[j] 这 样 的 代码 ， 我 们 就 能 得 到 可 以 将 原始 数据 类 型 的 数据 更 快 地 排序 的 
各 种 算法 (请 见 练习 2.1.26 ) 。 
.2.5.2.2 .Java 系统 库 的 排序 算法 9 

- 为 了 演示 表 2.5.1 所 示 的 数据 ， 这 里 我 们 考虑 Java 系统 库 中 的 主要 排序 方法 java.uti1. 

Arrays.sort()。 根 据 不 同 的 参数 类 型 ， 它 实际 上 代表 了 一 系列 排序 方法 : 

口 每 种 原始 数据 类 型 都 有 一 个 不 同 的 排序 方法 ; 

口 一 个 适用 于 所 有 实现 了 Comparab1e 接口 的 数据 类 型 的 排序 方法 ; 

， 口 一 个 适用 于 实现 了 比较 器 Comparator 的 数据 类 型 的 排序 方法 。 

Java 的 系统 程序 员 选 择 对 原始 数据 类 型 使 用 (. 三 向 切 分 的 ) 快速 排序 ， 对 引用 类 型 使 用 归并 排 
序 。 这 些 选择 实际 上 也 暗示 着 用 速度 和 空间 ( 对 于 原始 数据 类 型 ) 来 换取 稳定 性 (对 于 引用 类 型 ) ， 
如 刚才 讨论 的 那样 。 

我 们 讨论 过 的 这 些 算法 和 思想 是 包括 Java 的 许多 现代 系统 的 核心 组 成 部 分 。 当 为 实际 应 用 开发 
Java 程序 时 ， 你 会 发 现 Java 的 Arrays .sort() 实现 ( 可 能 再 加 上 你 自己 实现 的 compareTo() 或 者 
compare() ) 已 经 基本 够 用 了 ， 因 为 它 使 用 的 三 向 快速 排序 和 归并 排序 都 是 经 典 。 

在 本 书 中 我 们 一 般 都 会 使 用 我 们 自己 的 Quick.sort0O) 或 者 Merge.sort() (在 稳定 性 比 空间 更 
重要 时 ) 。 你 也 可 以 使 用 Arrays.sortC) ， 或 者 在 特殊 的 情况 下 使 用 其 他 排序 算法 。 


2.5.3“ 问题 的 归 约 
使 用 排序 算法 来 解决 其 他 问题 的 思想 是 算法 设计 领域 的 基本 技巧 一 归 约 的 一 个 例子 。 因 为 归 
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约 十 分 重要 ， 我 们 会 在 第 6 章 详细 讨论 它 ， 同 时 研究 几 个 具体 实例 。 归 约 指 的 是 为 解决 某 个 问题 而 
发 明 的 算法 正好 可 以 用 来 解决 另 一 种 问题 。 应 用 程序 员 对 于 归 约 的 概念 已 经 很 熟悉 了 (无论 是 否 明 
确 地 知道 这 一 点 ) 一 一 每 次 你 在 使 用 解决 问题 B 的 方法 来 解决 问题 A 时 ， 你 都 是 在 将 A 归 约 为 B。 
实际 上 , 实现 算法 的 一 个 目标 就 是 使 算法 的 适用 性 尽 可 能 广泛 ,使 得 问题 的 归 约 更 简单 。 作 为 例子 ， 
我 们 先 看 看 儿 个 简单 的 排序 问题 。 很 多 这 种 问题 都 以 算法 测验 的 形式 出 现 ， 而 解决 它们 的 第 一 想法 
往往 是 平方 级 别 的 暴力 破解 。 但 很 多 情况 下 如 果 先 将 数据 排序 ， 那 么 解决 剩 下 的 问题 就 只 需要 线性 


“级 别 的 时 间 了 ， 这 样 归 约 后 的 运行 时 间 的 增长 数量 级 就 由 平方 级 别 降低 到 了 线性 对 数 级 别 。 


2.5.3.1 找 出 重复 元 素 : 

在 一 个 Comparable 对 象 的 数组 中 是 否 存 在 重复 元 素 ? 有 多 少 重复 元 素 ? 哪个 值 出 现 得 最 频 
繁 ? 对 于 小 数组 ， 用 平方 级 别 的 算法 将 所 有 元 素 互相 比较 一 遍 就 足以 解答 这 些 问题 。 但 这 么 做 对 于 
大 数组 行 不 通 。 但 有 了 排序 ， 你 就 能 在 线性 对 数 的 时 间 内 回答 这 些 问题 : 首先 将 数组 排序 ， 然 后 遍 
历 有 序 的 数组 ， 记 录 连 续 出 现 的 重复 元 素 即 可 。 例 如 ， 下 面 就 是 一 段 统计 数组 中 不 重复 的 元 素 个 数 
的 代码 。 只 要 稍稍 修改 这 段 代码 你 就 能 回答 上 面 的 问题 ， 还 可 以 打印 所 有 不 同 元 素 的 值 、 所 有 重复 
元 素 的 值 ， 等 等 ， 即 使 数组 很 大 也 无 妨 。 
2.5.3.2 排名 5， 

一 组 排列 ( 或 是 排名 ) 就 是 一 组 N 个 整 | // 心地 a, length > 0. 
数 的 数组 ， 其 中 0 到 N-1 的 每 个 数 都 只 出 现 for Gint i = 1; i < a.length; i++) 


次。 两 个 排列 之 间 的 Kendall tau 距离 就 是 if (a[i] .compareTo(a[i-1]) != 0) 
Count++; 

在 两 组 数列 中 顺序 不 同 的 数 对 的 数目 。 例 如 ， 

0316254 和 1036425 之 间 的 Kendall tau 统计 aD] 中 不 重复 元 素 的 个 数 


距离 是 4， 因 为 0-1、3-1、2-4、5-4 这 4 对 数 
字 在 两 组 排列 中 的 相对 顺序 不 同 ， 但 其 他 数字 的 相对 顺序 都 是 相同 的 。 这 种 统计 方法 的 应 用 十 分 广 
泛 。 在 社会 学 中 它 被 用 于 研究 社会 选择 和 投票 理论 ， 在 分 子 生 物 学 中 被 用 于 使 用 基因 表达 图 谱 比较 
基因 ， 在 网 络 中 被 用 于 搜索 引擎 结果 的 排名 ， 等 等 。 某 个 排列 和 标准 排列 ( 即 每 个 元 素 都 在 正确 位 
媳 上 的 排列 ) 的 Kendall tau 距离 就 是 其 中 逆序 数 对 的 数量 。 根 据 插 入 排序 设计 一 个 平方 级 别 的 算法 
来 计算 它 并 不 困难 ( 请 回想 2.1 节 中 的 命题 C) 。 高 效 地 计算 Kendall tau 距离 可 以 留 给 已 经 熟悉 那 
些 经 典 的 排序 算法 的 程序 员 (或 者 学 生 ) 作为 一 个 有 趣 的 练习 (请 见 练习 2.5.19) 。 
2.5.3.3 ”优先 队列 

在 2.4 节 中 我 们 已 经 见 过 两 个 被 归 约 为 优先 队列 操作 的 问题 的 例子 。 一 个 是 2.4.2.1 节 中 的 
TopM， 它 能 够 找到 输入 流 中 M 个 最 大 的 元 素 ; 另 一 个 是 2.4.4.7 节 中 的 Multiway， 它 能 够 将 M 个 
输入 流 归 并 为 一 个 有 序 的 输出 流 。 这 两 个 问题 都 可 以 轻易 用 长 度 为 M 的 优先 队列 解决 。 
2.5.3.4 ， 中 位 数 与 顺序 统计 
”一 个 和 排序 有 关 但 又 不 需要 完全 排序 的 重要 应 用 就 是 找 出 一 组 元 素 的 中 位 教 (中 间 值 ， 它 不 大 
于 一 半 的 元 素 又 不 小 于 另 一 半 元 素 ) 。 查 找 中 位 数 在 统计 学 计算 和 许多 数据 处 理 的 应 用 程序 中 都 很 
常见 。 它 是 一 种 特殊 的 选择 : 找到 一 组 数 中 的 第 上 小 的 元 素 ( 如 下 页 代码 所 示 ) 。 “选择 ”在 处 理 
实验 数据 和 其 他 数据 中 应 用 广泛 ， 使 用 中 位 数 和 其 他 顺序 统计 来 切 分 一 个 数组 也 很 常见 。 一 般 ， 我 
们 只 需要 处 理 一 个 很 大 的 数组 中 的 一 小 部 分 ， 在 这 种 情况 下 ， 一 个 程序 可 以 选择 ， 比 如 将 前 10% 的 
元 素 完全 排序 即 可 。2.4 节 中 我 们 的 TopM 用 优先 队列 为 无 界限 输入 解决 了 这 个 问题 。 除 了 TopM， 
另 一 种 选择 是 直接 将 数组 中 的 元 素 排序 。 在 调用 Quick.sort(a) 之 后 ， 数 组 中 的 大 个 最 小 的 元 素 
就 是 数组 的 前 大 个 元 素 ， 其 中 大 小 于 数组 长 度 。 但 这 种 方法 需要 调用 排序 ， 所 以 运行 时 间 的 增长 数 


量 级 是 线性 对 数 的 。 

还 有 更 好 的 办 法 吗 ? 当 上 很 小 或 者 很 大 时 
找 出 数组 中 的 个 最 小 值 都 很 简单 ， 但 当 太 和 数 
组 大 小 成 一 定 比 例 时 这 个 任务 就 变 得 比较 困难 
了 ， 比 如 找到 中 位 数 (好 NM2) 。 让 人 惊讶 的 是 
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public static Comparable 
select(Comparable[] a, int Kk) 
{ 

StdRandom. shuffleCa); 

int 1o = 0, hi = a.length - 1; 


while (hi > 10) 
其 实 上 面 的 select0) 方法 能 够 在 线性 时 间 内 解 ; 
决 这 个 问题 ( 这 个 实现 需要 在 用 例 中 进行 类 型 转 de 
换 ; 去 掉 这 个 限制 的 代码 请 见 本 书 的 网 站 ) 。 elseif d < loj+1; 
为 了 完成 这 个 任务 ; selectC) 用 两 个 变量 hi 
和 1o 来 限制 含有 要 选择 的 上 元 素 的 子 数组 , 并  } 
用 快速 排序 的 切 分 法 来 缩小 子 数 组 的 范围 。 请 
回想 partition() 方法 ， 它 会 将 数组 的 ar1o] 找到 一 组 数 中 的 第 人 小 元 素 
至 a[hi] 重新 排列 并 返回 一 个 整数 j 使 得 ar[1o; .j-1] 小 于 等 于 ar[j] 且 a[j+1..hi] 大 于 等 
于 arj]。 那 么 ,如果 k = j， 问 题 就 解决 了 。 如 果 k < j， 我 们 就 需要 切 分 左 子 数组 ( 令 hi = 
j-1) ， 如 果 K > j， 我 们 则 需要 切 分 右 子 数 组 ( 令 10 = j+1) 。 这 个 循环 保证 了 数组 中 1o 左 
边 的 元 素 都 小 于 等 于 a[10..hi] ， 而 hi 右边 的 元 素 都 大 于 等 于 a[1o. .hi]。 我 们 不 断 地 切 分 直 
到 子 数组 中 只 含有 第 个 元 素 ， 此 时 a[kJ 含有 最 小 的 (k+1 ) 个 元 素 ，a[0] 到 a[k-1] 都 小 于 等 
于 a[k]， 而 a[k+1] 及 其 后 的 元 素 都 大 于 等 于 a[k]。 至 于 为 何 这 个 算法 是 线性 级 别 的 ， 是 因为 
假设 每 次 都 正好 将 数组 二 分 ,那么 比较 的 总 次 数 为 (N+N/2+N/4+N/8…) ， 直 到 找到 第 上 的 元 素 ， 
这 个 和 显然 小 于 2V。 和 快速 排序 一 样 ， 这 里 也 需要 一 点 数学 知识 来 得 到 比较 的 上 界 ， 它 比 快速 排 
序 略 高 。 这 个 算法 和 快速 排序 的 另 一 个 共同 点 是 这 段 分 析 依赖 于 使 用 随机 的 切 分 元 素 ， 因 此 它 的 
性 能 保证 也 来 自 于 概率 。 

用 快速 排序 的 切 分 来 查找 中 位 数 的 可 视 轨迹 如 图 2.5.2 所 示 。 


int j = partition(a, 10, hi); 
Gj == k) return a[k]; 


} 
return a[k]; 


命题 U。 平 均 来 说 ， 基 于 切 分 的 选择 算法 的 运行 时 间 是 线性 级 别 的 。 


证 明 。 该 命题 的 分 析 和 快速 排序 的 命题 K 的 证 明 类 似 ， 但 要 复杂 得 多 。 结 论 就 是 算法 的 平均 比 
较 次 数 为 ~2N+2kin(N/R)+2(N-k)In(NAN-A))， 这 对 于 所 有 合法 的 值 都 是 线性 的 。 例 如 ， 这 个 
公式 说 明 找到 中 位 数 (k=N/2) 平均 需要 ~(2+2In2)N 次 比较 。 注 意 ， 最 坏 的 情况 下 算法 的 运行 时 
间 仍 然 是 平方 级 别 的 ， 但 与 快速 排序 一 样 ， 将 数组 乱 序 化 可 以 有 效 防止 这 种 情况 出 现 。 


设计 一 个 能 够 保证 在 最 坏 情况 下 也 只 需要 线性 比较 次 数 的 算法 是 计算 复杂 性 领域 的 一 个 经 典 问 
题 ， 但 到 目前 为 止 仍然 没有 一 个 能 够 实用 的 算法 。 


2.5.4 排序 应 用 一 览 

排序 的 直接 应 用 极为 普遍 和 广泛 :无 法 一 一 列举 。 你 可 以 将 歌曲 按照 曲名 或 是 歌手 排序 ， 将 邮 
件 按照 时 间或 是 发 件 人 排序 (或 者 来 电 按照 时 间或 来 电 者 排序 ) ， 将 照片 按照 日 期 排序 。 大 学 会 将 
学 生 的 账户 按照 姓名 或 是 ID 排序 。 信 用 卡 公司 会 将 上 百 万 甚至 上 亿 的 交易 按照 日 期 或 是 金额 排序 。 
科学 家 会 将 实验 数据 按照 时 间或 其 他 标准 排序 来 精确 地 模拟 现实 世界 ， 从 粒子 或 者 天 体 的 运动 ， 到 
物质 的 结构 ， 到 社会 中 的 人 际 关系 。 实 际 上 ， 很 难 找到 和 排序 无 关 的 任何 计算 性 应 用 ! 为 了 更 好 地 
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说 明 这 一 点 ， 我 们 在 这 一 小 世 中 华 几 个 比 应 用 归 约 更 加 复杂 | hj 
的 例子 ,其 中 几 个 我 们 会 在 本 书 的 其 他 章节 更 加 详细 地 研究 。 Th 
.5.4.1 商业 计算 

RE 政府 组 织 、 金 融 机 构 和 商 Ja lo tho, 
业 公司 都 依 粘 排 序 来 管理 大 量 的 信息 。 无 论 这 些 信息 是 按照 名 
字 或 者 数字 排序 的 号 号 、 按 归 日 期 或 者 此 序 的 交易 、 按照。 下 
邮编 或 者 地 址 排序 的 邮件 、 按 照 名 称 或 者 日 期 排序 的 文件 等 
处 理 这 些 数据 必然 需要 排序 算法 。_ 般 这 些 信息 都 会 存储 在 类。 wallnklhjluknlaunln 
型 的 数据 库 里 ， 能 够 按照 多 个 键 排序 以 提高 搜索 效率 。 一 个 普 


hal 








遍 使 用 的 有 效 方法 是 先 收集 新 的 信息 并 添加 到 数据 库 ， 将 其 按 nm 
感 兴趣 的 键 排 序 ， 然 后 将 每 个 键 的 排序 结果 归并 到 已 存在 的 数据 io 1 hi 
库 中 。 从 计算 机 发 明 的 早期 开始 ， 我 们 学 习 过 的 这 些 方法 就 已 经 want 
被 用 来 构建 庞大 的 基础 数据 ， 处 理 它们 的 方法 则 是 所 有 这 些 商业 
活动 的 基石 。 今 天 ， 我 们 能 够 按部就班 地 处 理 上 百 万 甚至 上 亿 大 
小 的 数组 一 “没有 线性 对 数 级 别 的 排序 算法 也 就 没 法 将 它们 排 
序 ， 进 一 步 处 理 这 些 数据 也 会 极端 困难 ， 甚 至 是 不 可 能 的 。 1 
2.5.4.2 ”信息 搜索 中 位 数 
有 序 的 信息 确保 我 们 可 以 用 经 典 的 二 分 查找 法 ( 见 第 1 i 


童 ) 来 进行 高 效 的 搜索 。 你 会 看 到 许多 其 他 种 类 的 查询 也 可 
以 用 相同 的 方式 完成 。 有 多 少 元 素 小 于 给 定 的 元 素 ? 有 哪些 图 2.5.2 用 切 分 找 出 中 位 数 ( 另 见 
在 给 定 的 范围 之 内 ? 在 第 3 章 中 我 们 不 但 会 解答 这 些 问题 ， 彩 拓 ) 
还 会 具体 学 习 排序 算法 和 二 分 查找 的 各 种 扩展 ， 使 得 我 们 能 够 用 删除 和 插入 的 混合 操作 解答 这 些 问 
题 ， 并 保证 所 有 操作 的 对 数 级 别 的 性 能 
2.5.4.3 运筹 学 

运筹 学 指 的 是 研究 数学 模型 并 将 其 应 用 于 问题 解决 和 决策 的 领域 。 在 本 书 中 我 们 会 看 到 若干 运 
筹 学 和 算法 研究 的 关系 的 例子 。 这 里 我 们 先 来 看 排序 算法 在 运筹 学 的 经 典 问题 一 调度 中 的 应 用 。 
假设 我 们 需要 完成 个 任务 ， 第 /个 任务 需要 耗 时 秒 。 我 们 需要 在 完成 所 有 任务 的 同时 尽量 确保 
客户 满意 ,将 每 个 任务 的 平均 完成 时 间 最 小 化 。 按 照 最 短 优先 的 原则 ， 只 要 我 们 将 任务 按照 处 理 时 
间 升 序 排列 就 可 以 达到 目标 。 因 此 我 们 可 以 将 任务 按照 耗 时 排序 ， 或 是 将 它们 插入 到 一 个 最 小 优先 
队列 中 。 如 果 加 上 其 他 各 种 限制 ， 我 们 可 以 得 到 不 同 的 调度 问题 ， 这 在 工业 界 的 应 用 中 很 常见 ， 也 
被 很 好 地 研究 过 。 另 一 个 例子 是 负载 均衡 问题 。 假 设 我 们 有 M 个 相同 的 处 理 器 以 及 入 个 任务 ， 我 
们 的 目标 是 用 尽 可 能 短 的 时 间 在 这 些 处 理 器 上 完成 所 有 的 任务 。 这 个 问题 是 NP- 困难 的 ( 请 见 第 6 
章 ) ， 因 此 我 们 实际 上 不 可 能 算出 一 种 最 优 的 方案 。 但 一 种 较 优 调度 方法 是 最 大 优先 。 我 们 将 任务 
按照 耗 时 降序 排列 ， 将 每 个 任务 依次 分 配给 当前 可 用 的 处 理 器 。 要 实现 这 种 算法 ， 我 们 先 要 逆序 排 
列 这 些 任务 ， 然 后 为 M 个 处 理 器 维护 一 个 优先 队列 ， 每 个 元 素 的 优先 级 就 是 对 应 的 处 理 器 上 运行 
的 任务 的 耗 时 之 和 。 每 一 步 中 ， 我 们 都 剧 去 优先 级 最 低 的 那个 处 理 器 ， 将 下 一 个 任务 分 配给 这 个 处 
理 器 ， 然 后 再 将 它 重 新 插入 优先 队列 
2.5.4.4 ”事件 驱动 模拟 

很 多 科学 上 的 应 用 都 涉及 模拟 ， 用 大 量 计算 来 将 现实 世界 的 某 个 方面 建 模 以 期 能 够 更 好 地 理解 
它 。 在 计算 机 发 明之 前 ， 科 学 家 们 除了 构建 数学 模型 之 外 别 无 选择 ， 而 现在 计算 机 模型 很 好 地 补充 
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了 这 些 数学 模型 。 通 真 地 模拟 现实 世界 是 很 有 挑战 的 ， 而 使 用 正确 的 算法 使 得 我 们 能 够 在 有 限 的 时 
间 内 完成 这 些 模拟 ， 而 不 是 无 奈 地 接受 不 精确 的 实验 结果 或 是 无 尽 地 等 待 计算 的 完成 。 我 们 会 在 第 
6 章 中 展示 能 够 说 明 这 一 点 的 一 个 具体 例子 。 
2.5.4.5 ”数值 计算 

在 科学 计算 中 ， 精 确 度 非 常 重要 ( 我 们 距离 真正 的 答案 有 多 远 ) ， 特 别 是 当 我 们 在 计算 机 中 使 
用 的 只 是 真正 的 实数 的 近似 值 一 浮 点 数 来 进行 上 百 万 次 计算 的 时 候 。 一 些 数值 计算 算法 使 用 优先 
队列 和 排序 来 控制 计算 中 的 精确 度 。 例 如 ， 在 求 曲线 下 区 域 的 面积 时 ， 数 值 积分 的 一 个 方法 就 是 使 ”[549 
用 一 个 优先 队列 存储 一 组 小 间隔 中 每 段 的 近似 精确 度 。 积 分 的 过 程 就 是 删 去 精确 度 最 低 的 间隔 并 将 
其 分 为 两 半 〈 这 样 两 半 都 能 变 得 更 加 精确 ) ， 然 后 将 两 半 都 重新 加 入 优先 队列 。 如 此 这 般 ， 直 到 达 
到 预期 的 精确 程度 。 
2.5.4.6 ”组合 搜索 

人 工 智 能 领域 一 个 解决 “疑难 杂 症 ”的 经 典范 式 就 是 定义 一 组 状态 、 由 一 组 状态 演化 到 另 一 组 
状态 可 能 的 步骤 以 及 每 个 步骤 的 优先 级 ， 然 后 定义 一 个 起 始 状态 和 目标 状态 ( 也 就 是 问题 的 解决 办 
法 ) 。 著 名 的 A* 算法 的 解决 办 法 就 是 将 起 始 状 态 放 入 优先 队列 中 ， 然 后 重复 下 面 的 方法 直到 到 达 
目的 地 : 删 去 优先 级 最 高 的 状态 ， 然 后 将 能 够 从 该 状态 在 一 步 之 内 达到 的 所 有 状态 全 部 加 入 优先 队 
列 (除了 刚刚 删 去 的 那个 状态 之 外 ) 。 和 事件 驱动 模拟 一 样 ， 这 个 过 程 简直 就 是 为 优先 队列 量 身 定 
做 的 。 它 将 问题 的 解决 转化 为 了 定义 一 个 适当 的 优先 级 函数 问题 。 例 子 请 见 练习 2.5.32。 

除了 这 些 直接 应 用 之 外 (我们 只 说 了 很 小 的 一 部 分 而 已 》， 排 序 和 优先 队列 在 算法 设计 领域 也 
是 很 重要 的 抽象 概念 ， 因 此 本 书 会 经 常用 到 它们 。 下 面 我 们 举 了 一 些 本 书后 续 内 容 中 的 应 用 作为 例 
子 ， 它 们 都 依赖 于 本 章 中 的 排序 算法 和 优先 队列 数据 类 型 的 高 效 实现 。 

口 Prim 算法 和 Dijkstra 算法 

它们 都 是 第 4 章 中 的 经 典 算法 。 第 4 章 的 主题 是 图 的 处 理 算法 ， 图 是 由 结 点 和 连接 两 个 结 点 的 
边 组 成 的 一 种 重要 的 基础 模型 。 图 算法 的 基石 就 是 图 的 搜索 ， 也 就 是 一 个 结 点 一 个 结 点 地 查找 ， 优 [550] 
先 队列 在 其 中 扮演 了 重要 的 角色 

口 Kruskal 算法 

这 是 图 中 的 加 权 图 的 另 一 个 经 典 算法 ， 其 中 边 的 处 理 顺序 取决 于 它 的 权重 。 算 法 的 运行 时 间 是 
由 排序 所 需 的 时 间 决 定 的 。 

口 震 夫 曼 压缩 

这 是 一 个 经 典 的 数据 压缩 算法 。 它 处 理 的 数据 中 的 每 个 元 素 都 有 一 个 小 整数 作为 权重 ， 而 处 理 
的 过 程 就 是 将 权重 最 小 的 两 个 元 素 归并 成 一 个 新 元 素 ， 并 将 其 权重 相 加 得 到 新 元 素 的 权重 。 使 用 优 
先 队列 可 以 立即 实现 这 个 算法 。 其 他 几 种 数据 压缩 算法 也 是 基于 排序 的 。 

口 字符 串 处 理 

字符 申 处 理 算法 在 现代 密码 学 和 基因 组 学 中 起 着 关键 性 的 作用 ,它们 也 常常 依赖 于 排序 算法 ( 一 
般 都 会 使 用 第 5 章 中 所 讨论 的 特殊 的 字符 串 排序 算法 ) 。 例 如 ， 在 第 6 章 中 我 们 在 学 习 找 出 给 定 字 
符 串 中 的 最 长 重复 子 字符 事 算 法 时 会 先 将 字符 串 的 后 组 排序 。 Sl 
































图 答 颖 


间 Java 的 系统 库 中 有 优先 队列 这 种 数据 类 型 吗 ? 
答 有 , 请 见 java.uti1.priorityQueue。 
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围 续 
2.5.1 在 下 面 这 段 String 类 型 的 compareTo() 方法 的 实现 中 ， 第 三 行 对 提高 运行 效率 有 何 帮助 ? 


public int compareTo(String that) 

{ 
if (this == that) return 0; // 这 一 生 
int n = Math.min(this. length(), that.length()); 
for (int 1 = 0; i < n; i++) 


{ 
(this.charAt(i) < that:charAt(i)) return -1; 


else if (this.charAt(i) > that.charAt(i)) return +1; 


} 


return this.length() - that. lengthO; 
} 


2.5.2 ”编写 一 段 程序 ， 从 标准 输入 读 人 一 列 单词 并 打印 出 其 中 所 有 由 两 个 单词 组 成 的 组 合 词 。 例 如 ， 如 
果 输 入 的 单词 为 after、thought 和 afterthought， 那 么 afterthought 就 是 一 个 组 合 词 。 

2.5.3 ” 找 出 下 面 这 段 账户 余额 Balance 类 的 实现 代码 的 错误 。 为 什么 compareTo() 方法 对 Comparable 
接口 的 实现 有 缺陷 ? 


public class Balance implements Comparable<Balance> 


private double amount; 
public int compareToCBalance that) 


if (this.amount < that.amount - 0.005) return bebe es 
=1; 1-0ct-28 3500000 
if (this.amount > that.amount + 0.005) return 2-0ct-28 3850000 
+1; 3-0ct-28 4060000 
return 07 4-0ct-28 4330000 
二 i i: 5-0ct-28 4360000 
mh i 
说 明 如 何 修正 这 个 问题 。 3 
2.5.4 实现 一 个 方法 String[] dedup(String[] a)， 返回 一 个 3-Jan-00 931800000 
有 序 的 ar] ， 并 删 去 其 中 的 重复 元 素 。 $000 ee 
2.5.5 说 明 为 何 选择 排序 是 不 稳定 的 。 es 
2.5.6 用 递归 实现 seTectO)。 输出 
2.5.7 用 select() 找 出 N 个 元 素 中 的 最 小 值 平均 大 约 需 要 多 少 19-Aug-40 130000 
次 比较 ? 26-Aug-40 160000 
2.5.8 编写 一 段 程序 Frequency， 从 标准 输入 该 取 一 列 字符 串 并 本 
按照 字符 申 出 现 频率 由 高 到 低 的 顺序 打印 出 每 个 字符 串 及 23-Jun-42 210000 
向 23-Ju1-02 2441019904 
Ju 
2.5.9 为 将 右 侧 所 示 的 数据 排序 编写 一 个 新 的 数据 关 型 。 0 
2.5.10 创建 一 个 数据 类 型 Version 来 表示 软件 的 版 本 ， 例 如 15-Ju1-02 2574799872 
115.1.1、115:10.1、115.10.2。 为 它 实现 Comparable 接口， 2 WA 


-]u1-02 277555993 
其 中 115.1.1 的 版 本 低 于 115.10.1。 24-]u1-02 2775559936 
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描述 排序 结果 的 -种 方法 是 创建 一 个 保存 0 到 a. Tength-1 的 排列 p[] ,使 得 p[i] 的 值 为 a[i] 
元 素 的 最 终 位 置 。 用 这 种 方法 描述 插入 排序 、 选 择 排序 、 希 尔 排序 、 归并 排序 、 快 速 排序 和 堆 排 
序 对 一 个 含有 7 个 相同 元 素 的 数组 的 排序 结果 。 


图 提高 和 


2.5.12 


.2.5.13 


2.5.14 


2.5.15 


2.5.16 


2.5.17 


2.5.18 


2.5.19 


2.5.20 


DT 


2.5.22 


2.5.23 


调度 。 编 写 一 段 程序 SPTjava, 从 标准 输入 中 读 取 任务 的 名 称 和 所 需 的 运行 时 间 ， 用 2.5.4.3 节 
所 述 的 最 短处 理 时 间 优先 的 原则 打印 出 一 份 调度 计划 ， 使 得 任务 完成 的 平均 时 间 最 小 。 


负载 均衡 。 编写 一 段 程序 LPTjava， 接 受 一 个 整数 M 作为 命令 行 参数 ， 从 标准 输入 中 读 取 任务 的 : 


名 称 和 所 需 的 运行 时 间 ， 用 2.5.4.3 节 所 述 的 最 长 处 理 时 间 优先 原则 打印 出 一 份 调度 计划 ， 将 所 
有 任务 分 配给 M 个 处 理 器 并 使 得 所 有 任务 完成 所 需 的 总 时 间 最 少 。 

逆 域名 排序 。 为 域名 编写 一 个 数据 类 型 Domain 并 为 它 实现 一 个 compareTo() 方法 ， 使 之 能 够 
按照 北向 的 域名 排序 。 例 如 ， 域 名 cs:princeton.edu 的 递 是 edu.princeton cs。 这 在 网 络 日 志 处 理 时 


很 有 用 。 提 示 : 使 用 s.sp1it("\N,") 将 域名 用 点 分 为 若干 部 分 : 编写 一 个 Domain 的 用 例 ， 从 


标准 输入 读 取 域名 并 将 它们 按照 逆 域 名 有 序 地 打印 出 来 。 

垃圾 邮件 大 战 。 在 非法 垃圾 邮件 之 战 的 伊始 ， 你 有 一 大 串 来 自 各 个 域名 ( 也 就 是 电子 邮件 地 址 
中 @ 符 号 后 面 的 部 分 ) 的 电子 邮件 地 址 。 为 了 更 好 地 伪造 回信 地 址 ， 你 应 该 总 是 从 相同 的 域 中 
向 目标 用 户 发 送 邮件 。 例 如 ， 从 wayne@cs.princeton.edu 向 rs@es.princeton.edu 发 送 垃圾 邮件 就 
很 不 错 。 你 会 如 何 处 理 这 份 电子 邮件 列表 来 高 效 地 完成 这 个 任务 呢 ? 

公正 的 选举 。 为 了 避免 对 名 字 排 在 字母 表 靠 后 的 候选 人 的 偏见 ， 加 州 在 2003 年 的 州长 选举 中 将 
所 有 候选 人 按照 以 下 字母 顺序 排列 
RWQAOJMVAHBSGZXNTCIEKUPDYFL 

创建 一 个 遵守 这 种 顺序 的 数据 类 型 并 编写 一 个 用 例 Califomia， 在 它 的 静态 方法 main() 中 将 字符 
申 按 照 这 种 方式 排序 。 假 设 所 有 字符 串 全 部 都 是 大 写 的 。 

检测 稳定 性 。 扩 展 练习 2.1,16 中 的 check() 方法 ， 对 指定 数组 调用 sort CO ， 如 果 排序 结果 是 稳 
定 的 则 返回 true， 和 否则 返回 fa1se。 不 要 假设 sort() 只 会 使 用 exch() 移动 数据 。 

强制 稳定 。 编 写 一 段 能 够 将 任意 排序 方法 变 得 稳定 的 封装 代码 ， 创 建 一 种 新 的 数据 类 型 作为 键 
将 键 的 原始 索引 保存 在 其 中 ， 并 在 调用 sortC 之 后 再 根据 保存 的 索引 恢复 键 的 原始 顺序 。 


Kendall tau 距离 。 编 写 一 段 程序 KendallTaujava, ,在 线性 对 数 时 间 内 计算 两 组 排列 之 间 的 


Kendall tau 距离 。 F 

空间 时 间 。 假 设 有 一 台 计算 机 能 够 并 行 处 理 入 个 任务 。 编 写 一 段 程序 并 给 定 一 系列 任务 的 起 始 
时 间 和 结束 时 间 ， 找 出 这 台 机 器 最 长 的 空闲 时 间 和 最 长 的 繁忙 时 间 。 

多 维 排序 。 编 写 一 个 Vector 数据 类 型 并 将 df 维 整 型 向 量 排序 。 排 序 方法 是 先 按照 一 维 数字 排序 ， 
一 维 数字 相同 的 向 量 则 按照 二 维 数 字 排 序 ， 再 相同 的 向 量 则 按照 三 维 数字 排序 ， 如 此 这 般 。 


股票 交易 。 投资 者 对 一 只 股票 的 买卖 交易 都 发 布 在 电子 交易 市 场 中 。 他 们 会 指定 最 高 买 人 价 和 
:最 低 卖 出 价 ， 以 及 在 该 价位 买卖 的 笔 数 。 编 写 一 段 程序 ， 用 优先 队列 来 匹配 买 家 和 卖家 并 用 模 


拟 数据 进行 测试 。 可 以 使 用 两 个 优先 队列 ， 一 个 用 于 买 家 一 个 用 于 卖家 ， 当 一 一 方 的 报价 能 够 和 
另 一 方 的 一 份 或 多 份 报价 匹配 时 就 进行 交易 。 
选择 的 取样 : 实验 使 用 取样 来 改进 select(7 函数 的 想法 。 提 示 : 使 用 中 位 数 可 能 并 不 总 是 有 效 。 
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2.5.26 


2.5.27 


2.5.28 . 


2.5.29 


“2.5.30 


稳定 的 优先 队列 。 实 现 一 个 稳定 的 优先 队列 (将 重复 的 元 素 按照 它们 被 插 人 的 顺序 返回 ) 
平面 上 的 点 。 为 表 1.2.3 的 Point20 类 型 编写 三 个 静态 的 比较 器 ， 一 个 按照 x 坐标 比较 ， 一 个 按 
照 》 坐 标 比较 ; 一 个 按照 点 到 原点 的 距离 进行 比较 。 编 写 两 个 非 静态 的 比较 器 ,一 个 按照 两 点 
到 第 三 点 的 距离 比较 ， 一 个 按照 两 点 相对 于 第 三 点 的 幅 角 比较 。 

简单 多 边 形 。 给 定 平面 上 的 入 个 点 ,用 它们 画 出 一 个 多 边 形 。 提 示 : 找到 坐标 最 小 的 点 pp， 
在 有 多 个 最 小 y 坐标 的 点 时 取 x 坐标 最 小 者 ， 然 后 将 其 他 点 按照 以 p 为 原点 的 幅 角 大 小 的 顺序 
依次 连接 起 来 。 

平行 数组 的 排序 。 在 将 平行 数组 排序 时 ， 可 以 将 索引 排序 并 返回 一 个 index[] 数组 。 为 
Insertion 添加 一 个 indirectSort() 方法 ， 接 受 一 个 Comparable 的 对 象 数组 a[] 作为 参 


: 数 ， 但 它 不 会 将 a[] 中 的 元 素 重新 排列 ， 而 是 返回 一 个 整形 数组 index[] 使 得 a[index[0]] 到 


a[index[N-1]] 正好 是 升序 的 。 

按 文件 名 排序 : 编写 一 个 FileSorter 程序 ， 从 命令 行 接受 一 个 目录 名 并 打印 出 按照 文件 名 排序 后 
的 所 有 文件 。 提 示 : 使 用 File 数据 类 型 。 

按 大 小 和 最 后 修改 日 期 将 文件 排序 。 为 File 数据 类 型 编写 比较 器 ,使 之 能 够 将 文件 按照 大 小 、 
文件 名 或 最 后 修改 日 期 将 文件 升序 或 者 降序 排列 。 在 程序 LS 中 使 用 这 些 比较 器 ， 它 接受 一 个 命 
令 行 参 数 并 根据 指定 的 顺序 列 出 目录 的 内 容 。 例 如 ，"-t" 指 按照 时 间 稚 排序 。 支持 多 个 选项 以 
消除 排序 位 次 相同 者 ， 同 时 必须 确保 排序 的 稳定 性 。 

Boemet 定理 。 资 假 判 断 ; 如果 你 先 将 一 个 短 阵 的 每 二 列 排序 ， 青 将 短 阵 的 每 一行 排 序 ， 所 有 的 
列 仍然 是 有 序 的 。 证 明 你 的 结论 。 


图 实验 十 





2.5.31 


2.5.32 


… 2.5.33 


重复 元 素 。 编 写 一 段 程序 ， 接 受命 令 行 参数 M、N 和 T， 然 后 使 用 正文 中 的 代码 进行 这 实验 : 

生成 个 0 到 M-1 间 的 int 值 并 计算 重复 值 的 个 数 。 令 7=10，N=10"、10%、10 和 10 以 及 
MEM2: N 和 2N。 根 据 概率 论 ， 重 复 值 的 个 数 应 该 约 为 (1-e”)， 其 中 a=N/M。 打 印 一 张 表 格 
来 确认 你 的 实验 验证 了 这 个 公式 。 

8 字迹 题 。8 字谜 题 是 S. loyd 于 19 世纪 70 年 代 发 明 的 一 个 游戏 。 游戏 需要 一 个 三 乘 三 的 九 官 格 ， 
其 中 八 格 中 填 上 了 1 到 8 这 8 个 数字 ， 一 格 空 着 。 你 的 目标 就 是 将 所 有 的 格子 排序 。 可 以 将 一 
个 格子 向 上 下 或 者 左右 移动 ( 但 不 能 是 对 角 线 方向 ) 到 空白 的 格子 中 。 编 写 一 个 程序 用 A* 算法 
解决 这 个 问题 。 先 用 到 达 九 宫 格 的 当前 位 置 所 需 的 步 数 加 上 错位 的 格子 数量 作为 优先 级 函数 ( 注 
意 ， 步 数 至 少 大 于 等 于 错位 的 格子 数 ) 。 尝 试用 其 他 函数 代 蔡 错位 的 格子 数量 ， 比 如 每 个 格子 
距离 它 的 正确 位 置 的 曼哈顿 距离 ， 或 是 这 些 距离 的 平方 之 和 。 

随机 交易 。 开 发 一 个 接受 参数 N 的 生成 器 ， 根 据 你 能 想到 的 任意 假设 条 件 生成 W 个 随机 的 
Transaction 对 象 ( 请 见 练习 2.1.21 和 练习 2.1.22 )。 对 于 N=10 .10"、10 和 10?， 比较 用 希 尔 排 序 、 

归并 排序 、 快 速 排序 和 堆 排序 将 N 个 交易 排序 的 性 能 。 


了 第 3 章 查找 


现代 计算 机 和 网 络 使 我 们 能 够 访问 海量 的 信息 。 高 效 检索 这 些 信息 的 能 力 是 处 理 它们 的 重要 前 
提 。 本 章 描述 的 都 是 数 十 年 来 在 广泛 应 用 中 经 过 实践 检验 的 经 典 查 找 算法 。 没 有 这 些 算法 ， 现 代 信 
息 世界 的 基础 计算 设施 都 无 从 谈 起 。 

我 们 会 使 用 符号 表 这 个 词 来 描述 一 张 抽象 的 表格 ， 我 们 会 将 信息 ( 值 ) 存储 在 其 中 ， 然 后 按照 
指定 的 键 来 搜索 并 获取 这 些 信息 。 键 和 值 的 具体 意义 取决 于 不 同 的 应 用 。 符 号 表 中 可 能 会 保存 很 多 
键 和 很 多 信息 ， 因 此 实现 一 张 高 效 的 符号 表 也 是 一 项 很 有 挑战 性 的 任务 。 

符号 表 有 时 被 称 为 字典 , 类 似 于 那 本 将 单词 的 释义 按照 字母 顺序 排列 起 来 的 历史 悠久 的 参考 书 。 
在 英语 字典 里 ， 键 就 是 单词 ， 值 就 是 单词 对 应 的 定义 、 发 音 和 词 源 。 符 号 表 有 时 又 叫做 索引 ， 即 书 
本 最 后 将 术语 按照 字母 顺序 列 出 以 方便 查找 的 那 部 分 。 在 一 本 书 的 索引 中 ， 键 就 是 术语 ， 而 值 就 是 
书 中 该 术语 出 现 的 所 有 页 码 。 

在 说 明了 基本 的 API 和 两 种 重要 的 实现 之 后 ， 我 们 会 学 习 用 三 种 经 典 的 数据 类 型 来 实现 高 效 的 
符号 表 : 二 叉 查 找 树 、 红 黑 树 和 散 列 表 。 在 总 结 中 我 们 会 看 到 它们 的 若干 扩展 和 应 用 ， 它 们 的 实现 359 
都 有 赖 于 我 们 在 本 章 中 将 会 学 到 的 高 效 算法 361 
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3.1 符号 表 


符号 表 最 主要 的 目的 就 是 将 一 个 键 和 一 个 值 联系 起 来 。 用 例 能 够 将 一 个 键 值 对 插入 符号 表 并 希 
望 在 之 后 能 够 从 符号 表 的 所 有 键 值 对 中 按照 键 直接 找到 相对 应 的 值 。 本 章 会 讲解 多 种 构造 这 样 的 数 
据 结构 的 方法 ,它们 不 光 能 够 高 效 地 插入 和 查找 , 还 可 以 进行 其 他 几 种 方便 的 操作 。 要 实现 符号 表 ， 
我 们 首先 要 定义 其 背后 的 数据 结构 ， 并 指明 创建 并 操作 这 种 数据 结构 以 实现 插入 、 查 找 等 操作 所 需 


的 算法 。 


查找 在 大 多 数 应 用 程序 中 都 至 关 重 要 ， 许多 编程 环境 也 因此 将 符号 表 实现 为 高 级 的 抽象 数据 结 
构 ， 包 括 Java 一 一 我 们 会 在 3.5 节 中 讨论 Java 的 符号 表 实 现 。 表 3.1.1 给 出 的 例子 是 在 一 些 典型 的 
应 用 场景 中 可 能 出 现 的 键 和 值 。 我 们 马上 会 看 到 一 些 参考 性 的 用 例 ，3.5 节 的 目的 就 是 向 你 展示 如 
何在 程序 中 有 效 地 使 用 符号 表 。 本 书 中 我 们 还 会 在 其 他 算法 中 使 用 符号 表 。 


定义 。 符 号 表 是 一 种 存储 键 值 对 的 数据 结构 ， 支 持 两 种 操作 : 插入 (put) ， 即 将 一 组 新 的 键 值 
对 存 入 表 中 ; 查找 (get ) ， 即 根据 给 定 的 键 得 到 相应 的 值 。 


表 3.1.1 典型 的 符号 表 应 用 

















应 用 查找 的 目的 键 值 

字典 找 出 单词 的 释义 单词 释义 

图 书 索引 找 出 相关 的 页 码 术语 一 串 页 码 

文件 共享 找到 歌曲 的 下 载 地 址 歌曲 名 计算 机 ID 

账户 管理 处 理 交易 账户 号 码 交易 详情 

网 络 搜索 找 出 相关 网 页 关键 字 网 页 名 称 
362| 编译 跨 找 出 符号 的 类 型 和 值 变量 名 类 型 和 值 

3.1.1 API 


符号 表 是 一 种 典型 的 抽象 数据 类 型 ( 请 见 第 1 章 ) : 它 代表 着 一 组 定义 清晰 的 值 以 及 相应 的 操 
作 ， 使 得 我 们 能 够 将 类 型 的 实现 和 使 用 区 分 开 来 。 和 以 前 一 样 , 我们 要 用 应 用 程序 编程 接口 ( API ) 
来 精确 地 定义 这 些 操作 ( 如 表 3.1.2 所 示 ) ， 为 数据 类 型 的 实现 和 用 例 提供 一 份 “ 契 约 ”。 


表 3.1.2 一 种 简单 的 泛 型 符号 表 API 





public class ST<Key, Value> 
STO 创建 一 张 符号 表 
void put(Key key, Value, val) 将 键 值 对 存 人 表 中 ( 若 值 为 空 则 将 键 key 从 表 中 删除 ) 
Value get(Key key) 获取 键 key 对 应 的 值 (车 键 key 不 存在 则 返回 nu11 ) 
void delete(Key key) 从 表 中 删 去 键 key ( 及 其 对 应 的 值 ) 
boolean contains(Key key) 键 key 在 表 中 是 否 有 对 应 的 值 
boolean isEmptyO 表 是 否 为 空 
int sizeO 表 中 的 键 值 对 数量 


Iterable<Key> 


keysO) 


表 中 的 所 有 键 的 集合 





在 查看 用 例 代码 之 前 ， 为 了 保证 代码 的 一 致 、 简 洁 和 实用 ， 我 们 要 先 说 明 具体 实现 中 的 几 个 设 


计 决 策 。 
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3.1.1.1 泛 型 

和 排序 一 样 ， 在 设计 方法 时 我 们 没有 指定 处 理 对 象 的 类 型 ， 而 是 使 用 了 泛 型 。 对 于 符号 表 , 我 
们 通过 明确 地 指定 查找 时 键 和 值 的 类 型 来 区 分 它们 的 不 同 角色 ， 而 不 是 像 2.4 节 的 优先 队列 那样 将 
键 和 元 素 本 身 混为一谈 。 在 考虑 了 这 份 基本 的 API 后 ( 例如， 这 里 没有 说 明 键 的 有 序 性 ) ， 我 们 会 
用 Comparable 的 对 象 来 扩展 典型 的 用 例 ， 这 也 会 为 数据 类 型 带 来 许多 新 的 方法 。 
3.1.1.2 重复 的 键 

我 们 的 所 有 实现 都 遵循 以 下 规则 : 

口 每 个 键 只 对 应 着 一 个 值 ( 表 中 不 允许 存在 重复 的 键 ) ; 

口 当 用 例 代 码 向 表 中 存 人 的 键 值 对 和 表 中 已 有 的 键 ( 及 关联 的 值 ) 冲突 时 , 新 的 值 会 替代 旧 的 值 。 

这 些 规则 定义 了 关联 数组 的 抽象 形式 。 你 可 以 将 符号 表 想 象 成 一 个 数组 ， 键 即 索引 ， 值 即 数 
组 的 元 素 。 在 一 个 一 般 的 数组 中 ， 键 就 是 整 型 的 索引 ， 我 们 用 它 来 快速 访问 数组 的 内 容 ; 在 一 个 ”[363 
关联 数组 ( 符号 表 ) 中 ， 键 可 以 是 任意 类 型 ， 但 我 们 仍然 可 以 用 它 来 快速 访问 数组 的 内 容 。 一 些 
编程 语言 ( 非 Java ) 直接 支持 程序 员 使 用 st[key] 来 代替 st.get(key)，st[key]=val 来 代替 
st.put(key，val)， 其 中 key ( 键 ) 和 val ( 值 ) 都 可 以 是 任意 类 型 的 对 象 。 
3.1.1.3 空 Cnul) 键 

键 不 能 为 室 。 和 Java 中 的 许多 其 他 机 制 一 样 ， 使 用 空 键 会 产生 一 个 运行 时 异常 (请 见 本 节 答 疑 
的 第 三 条 ) 。 
3.1.1.4 空 (nul) 值 

我 们 还 规定 不 允许 有 空 值 。 这 个 规定 的 直接 原因 是 在 我 们 的 API 定义 中 ， 当 键 不 存在 时 get() 
方法 会 返回 空 , 这 也 意味 着 任何 不 在 表 中 的 键 关联 的 值 都 是 空 。 这 个 规定 产生 了 两 个 ( 我 们 所 期 望 的 ) 
结果 ; 第 一 ， 我 们 可 以 用 getQ 〇 方法 是 否 返回 空 来 测试 给 定 的 键 是 否 存 在 于 符号 表 中 ; 第 二 ， 我 们 
可 以 将 空 值 作为 putQ 方法 的 第 二 个 参数 存 人 表 中 来 实现 删除 ， 也 就 是 3.1.1.5 节 的 主要 内 容 。 
3.1.1.5 ”删除 操作 

在 符号 表 中 ， 删 除 的 实现 可 以 有 两 种 方法 : 延 时 删除 ， 也 就 是 将 键 对 应 的 值 置 为 空 ， 然 后 在 
某 个 时 候 删 去 所 有 值 为 空 的 键 ; 或 是 即时 删除 ， 也 就 是 立刻 从 表 中 删除 指定 的 键 。 刚 才 已 经 说 过 ， 
put(key，nu11) 是 delete(key) 的 一 种 简单 的 延 时 型 ) 实现 。 而 实现 ( 即时 型 ) delete() 
就 是 为 了 替代 这 种 默认 的 方案 。 在 我 们 的 符号 表 实现 中 不 会 使 用 默认 的 方案 ， 而 在 本 书 的 网 站 上 
putQ 实现 的 开头 有 这 样 一 句 防御 性 代码 ; 

if (val == nu11) { delete(key); return; } 

这 保证 了 符号 表 中 任何 键 的 值 都 不 为 空 。 为 了 节省 版 面 我 们 没有 在 本 书 中 附 上 这 段 代 码 (我 们 
也 不 会 在 调用 put() 时 使 用 nu11 ) 。 
3.1.1.6 ”便捷 方法 

为 了 用 例 代码 的 清晰 ， 我 们 在 API 中 加 入 了 contains() 和 isEmpty() 方法 ， 它 们 的 实现 如 
表 3.1.3 所 示 ， 只 需要 一 行 。 

















表 3.1.3 默认 实现 
方 法 默认 实现 
void delete(Key key) put(key, null); 
boolean contains(key) return get(key) != nu11; 


boolean isEmpty() return size() == 0; 
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为 节省 篇 幅 ， 我 们 不 想 重复 这 些 代 码 ， 但 我 们 约定 它们 存在 于 所 有 符号 表 API 的 实现 中 ， 用 例 
程序 可 以 自由 使 用 它们 。 
3.1.1.7 和 迭代 

为 了 方便 用 例 处 理 表 中 的 所 有 键 值 ， 我 们 有 时 会 在 API 的 第 一 行 加 上 implements Interable 
<Key> 这 句 话 ， 强 制 所 有 实现 都 必须 包含 iterator() 方法 来 返回 一 个 实现 了 hasNext() 和 
next() 方法 的 迭代 器 ， 如 1.3 节 的 栈 和 队列 所 述 。 但 是 对 于 符号 表 我 们 采用 了 一 个 更 简单 的 方法 。 
我 们 定义 了 keys() 方法 来 返回 一 个 Interable<Key> 对 象 以 方便 用 例 遍 历 所 有 的 键 。 这 么 做 是 为 
了 和 以 后 的 有 序 符号 表 的 所 有 方法 保持 一 致 ， 使 得 用 例 可 以 遍历 表 的 键 集 的 一 个 指定 的 部 分 。 
3.1.1.8” 键 的 等 价 性 

要 确定 一 个 给 定 的 键 是 否 存 在 于 符号 表 中 ， 首 先 要 确立 对 象 等 价 性 的 概念 。 我 们 在 1.2.5.8 节 
深入 讨论 过 这 一 点 。 在 Java 中 ， 按 照 约定 所 有 的 对 象 都 继承 了 一 个 equa1s() 方法 ，Java 也 为 它 
的 标准 数据 类 型 例如 Integer、Double 和 String 以 及 一 些 更 加 复杂 的 类 型 ， 如 File 和 URL， 实 
现 了 equals() 方法 一 一 当 使 用 这 些 数据 类 型 时 你 可 以 直接 使 用 内 置 的 实现 。 例 如 ， 如 果 x 和 y 都 
是 String 类 型 ， 当 且 仅 当 x 和 yy 的 长 度 相同 且 每 个 位 置 上 的 字母 都 相同 时 ，x.equals(y) 返回 
true。 而 自 定义 的 键 则 需要 如 1.2 节 所 述 重 写 equa1s() 方法 。 你 可 以 参考 我 们 为 Date 类 型 ( 请 
见 1.2.5.8 节 ) 实现 的 equa1s() 方法 为 你 自己 的 数据 类 型 实现 equa1s © 方法 。 和 2.4.4.5 节 中 讨论 
的 优先 队列 一 样 ， 最 好 使 用 不 可 变 的 数据 类 型 作为 键 ， 否 则 表 的 一 致 性 是 无 法 保证 的 。 


3.1.2 ”有 序 符号 表 

典型 的 应 用 程序 中 ， 键 都 是 Comparable 的 对 象 ， 因 此 可 以 使 用 a.compareTo(b) 来 比较 a 和 
b 两 个 键 。 许 多 符号 表 的 实现 都 利用 了 Comparable 接口 带 来 的 键 的 有 序 性 来 更 好 地 实现 putC) 和 
getQ 方法 。 更 重要 的 是 在 这 些 实现 中 ， 我们 可 以 认为 符号 表 都 会 保持 键 的 有 序 并 大 大 扩展 它 的 
API， 根 据 键 的 相对 位 置 定义 更 多 实用 的 操作 。 例 如 ， 假 设 键 是 时 间 ， 你 可 能 会 对 最 早 的 或 是 最 晚 的 
键 或 是 给 定时 间 段 内 的 所 有 键 等 感 兴趣 。 在 大 多 数 情况 下 用 实现 putCO) 和 get() 方法 背后 的 数据 结 
构 都 不 难 实现 这 些 操作 。 于 是 ， 对 于 Comparable 的 键 ， 在 本 章 中 我 们 实现 了 表 3.1.4 中 的 API。 


表 3.1.4 一 种 有 序 的 泛 型 符号 表 的 API 
public class ST<Key extends Comparable<key>, Value> 





STO 创建 一 张 有 序 符号 表 
void put(Key key, Value, val) 将 键 值 对 存 入 表 中 ( 若 值 为 空 则 将 键 key 从 表 中 删除 ) 
Value get(Key key) 获取 键 key 对 应 的 值 ( 若 键 key 不 存在 则 返回 空 ) 
void delete(Key key) 从 表 中 删 去 键 key ( 及 其 对 应 的 值 ) 
boolean contains(Key key) 键 key 是 否 存在 于 表 中 
boolean isEmpty() 表 是 否 为 空 
int sizeO 表 中 的 键 值 对 数量 
Key minO 最 小 的 键 
Key maxC) 最 大 的 键 
Key floor(Key key) 小 于 等 于 key 的 最 大 键 
Key ceiling(Key key) 大 于 等 于 key 的 最 小 键 
int rank(Key key) 小 于 key 的 键 的 数量 


Key selectCint k) 排名 为 k 的 键 











( 续 ) 
public class ST<Key extends Comparableckey>, Value> 
void deleteMinC) 副 除 最 小 的 键 
void ~ deleteMax() 删除 最 大 的 键 
int . size(Key lo, Key hi) ” mo. .hi] 之 间 键 的 数量 
Iterable<Key> keys(Key 10，Key hi) [1o. .hi] 之 间 的 所 有 键 ， 已 排序 
Tterable<Key> keys©) 表 中 的 所 有 键 的 集合 ， 已 排序 


只 要 你 见 到 类 的 声明 中 含有 泛 型 变量 Key extends Comparable<key>， 那 就 说 明 这 段 程序 是 
在 实现 这 份 API， 其 中 的 代码 依赖 于 Comparable 的 键 并 且 实现 了 更 加 丰富 的 操作 。 上 面 所 有 这 些 
操作 一 起 为 用 例 定义 了 一 个 有 序 符 号 表 。 
3.1.2.1 最 大 键 和 最 小 键 

对 于 一 组 有 序 的 键 ， 最 自然 的 反应 就 是 查询 其 中 的 最 大 键 和 最 小 键 。 我 们 在 2.4 节 讨论 优先 队 
列 时 已 经 过 到 过 这 些 操作 。 在 有 序 符号 表 中 ， 我 们 也 有 方法 删除 最 大 键 和 最 小 键 (以 及 它们 所 关联 
的 值 ) 。 有 了 这 些 ， 符 号 表 就 具有 了 类 似 于 2.4 节 中 IndexMinpQqO 的 能 力 。 主 要 的 区 别 在 于 优先 
队列 中 可 以 存在 重复 的 键 但 符号 表 中 不 行 ， 而 且 有 序 符号 表 支持 的 操作 更 多 。 
3.1.2.2 向 下 取 整 和 向 上 取 整 

对 于 给 定 的 键 , 向 下 取 整 ( fioor ) 操 作 ( 找 出 小 于 等 于 该 键 的 最 大 键 ) 和 向 上 取 整 ( ceiling ) 操 作 ( 找 
出 大 于 等 于 该 键 的 最 小 键 ) 有 时 是 很 有 用 的 。 这 两 个 术语 来 自 于 实数 的 取 整 函数 ( 对 一 个 实数 x 向 
下 取 整 即 为 小 于 等 于 x 的 最 大 整数 ， 向 上 取 整 则 为 大 于 等 于 x 的 最 小 整数 ) 。 
3.1.2.3 ”排名 和 选择 

检验 一 个 新 的 键 是 否 插入 合适 位 置 的 基 表 3.1.5 有 序 符号 表 的 操作 示例 













本 操作 是 排名 (rank， 找 出 小 于 指定 键 的 键 站 
的 数量 ) 和 选择 (select, 找 出 排名 为 的 键 )。 a 
要 测试 一 下 你 是 否 完全 理解 了 它们 的 作用 ， 03 Phoenix 


请 确认 对 于 0 到 sizeQO-1 的 所 有 i 都 有 get(09:00:13)—03 he 


i==rank(select(i))， 且 所 有 的 键 都 满足 一 = Houston 
key==select(rank(key))。2.5 节 中 我 们 在 oo (Pp 全 
学 习 排序 时 已 经 遇 到 过 对 这 两 种 操作 的 需求 “ Seattle 
了 。 对 于 符号 表 ， 我 们 的 挑战 是 在 实现 插入 、 ns 
删除 和 查找 的 同时 快速 实现 这 两 种 操作 。 Chicago 
有 序 符号 表 的 操作 示例 如 表 3.1.5 所 示 keys(09:15:00，09:25:00) 一 ~| 09 0 

Rf ph 二 eattle 

3.1.2.4 范围 查找 Seattle 
约定 东 国内 (在 两 个 给 定 的 储 之 问 ) 有。 comiso0o nao 0 sal ee 

多 少 键 ? 是 哪些 ? 在 很 多 应 用 中 能 够 回答 这 09:36:14 Seattle 


些 问题 并 接受 两 个 参数 的 sizeC) 和 keysO 和 


方法 都 很 有 用 ; 特别 是 在 大 型 数据 库 中 。 能。 1”*(09:15;90， 09:25:00) = 5 
够 处 理 这 类 查询 是 有 序 符号 表 在 实践 中 被 广 
泛 应 用 的 重要 原因 之 一 。 
3.1.2.5 ”例外 情况 

当 一 个 方法 需要 返回 一 个 键 但 表 中 却 没有 合适 的 键 可 以 返回 时 ， 我 们 约定 抛 出 -个 异常 ( 另 一 
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种 合理 的 方法 是 在 这 种 情况 下 返回 空 ) 。 例 如 ， 在 符号 表 为 空 时 , min()、max()、deleteMin()、 
deleteMax() 、floor() 和 ceiling() 都 会 抛 出 异常 ， 当 k<0 或 k>=size() 时 select(k) 也 会 抛 
出 异常 。 
3.1.2.6 ”便捷 方法 

在 基础 API 中 我 们 已 经 见 过 了 contains () 和 isEmptyQ 方法 ， 为 了 用 例 的 清晰 我 们 又 在 API 
中 添加 了 一 些 宛 余 的 方法 。 为 了 节约 版 面 ， 除 非特 别 声明 ， 我 们 约定 所 有 有 序 符号 表 API 的 实现 都 
含有 如 表 3.1.6 所 示 的 方法 。 


表 3.1.6 有 序 符号 表 中 元 余 有 序 性 方法 的 默认 实现 








点 认 的 实现 
oid deleteminO 加 delete(minO); A Se 
void deleteMaxC) delete(maxO)); 
int size(Key 10，Key hi) if (hi.compareToC1o) < 0) 


return 0; 
else if (contains(hi)) 

return rank(Chi) - rank(1o) + 1; 
else 

return rankChi) - rank(1o); 


Iterable<Key> keysC) return keys(min(), max(O)); 


3.1.2.7 再 谈 ) 键 的 等 价 性 

Java 的 一 条 最 佳 实践 就 是 维护 所 有 Comparable 类 型 中 compareTo() 方法 和 equa1s() 方法 的 
一 致 性 。 也 就 是 说 ， 任 何 一 种 Comparable 类 型 的 两 个 值 a 和 b 都 要 保证 (a.compareToCb)==0) 
和 a.equals(b) 的 返回 值 相同 。 为 了 避免 任何 潜在 的 二 义 性 ， 我 们 不 会 在 有 序 符号 表 的 实现 中 使 
用 equal1s(0) 方法 。 作 为 替代 ， 我 们 只 会 使 用 compareTo() 方法 来 比较 两 个 键 ， 即 我 们 用 布尔 表达 
式 a.compareTo(b)==0 来 表示 “a 和 b 相等 吗 ? ”。 一 般 来 说 ， 这 样 的 比较 都 代表 着 在 符号 表 中 
的 一 次 成 功 查找 ( 找到 了 b ) 。 和 排序 算法 一 样 ，Java 为 许多 经 常 作为 键 的 数据 类 型 提供 了 标准 的 
compareTo() 方法 ， 为 你 自 定义 的 数据 类 型 实现 一 个 compareTo() 方法 也 不 困难 (参见 2.5 节 ) 。 
3.1.2.8 ”成 本 模型 

无 论 我 们 是 使 用 equalsQ 〇 方法 ( 对 于 符号 表 的 键 不 是 Comparable 对 象 而 言 ) 还 是 
compareTo() 方法 (对 于 符号 表 的 键 是 Comparable 对 象 而 言 ) ,我 们 使 用 比较 一 词 来 表示 将 一 个 
符号 表 条 日 和 一 个 被 查找 的 键 进行 比较 操作 。 在 大 多 数 的 符号 表 实现 中 , 这 个 操作 都 出 现在 内 循环 。 
在 少数 的 例外 中 ， 我 们 则 会 统计 数组 的 访问 次 数 。 


查找 的 成 本 模型 。 在 学 习 符号 表 的 实现 时 ， 我 们 会 统计 比较 的 次 数 ( 等 价 性 测试 或 是 键 的 相 
在 内 循环 不 进行 比较 〔 极 少 ) 的 情况 下 ， 我 们 会 统计 数组 的 访问 次 数 。 





符号 表 实 现 的 重点 在 于 其 中 使 用 的 数据 结构 和 get() 、put() 方法 。 在 下 文中 我 们 不 会 总 是 给 
出 其 他 方法 的 实现 ， 因 为 将 它们 作为 练习 能 够 更 好 地 检验 你 对 实现 背后 的 数据 结构 的 理解 程度 。 为 
了 区 别 不 同 的 实现 ， 我们 在 特定 的 符号 表 实现 的 类 名 前 加 上 了 描述 性 前 级 。 在 用 例 代码 中 ， 除 非 我 
们 想 使 用 一 个 特定 的 实现 ， 我 们 都 会 使 用 ST 表示 一 个 符号 表 实 现 。 在 本 章 和 其 他 章节 中 ， 经 过 学 


. 习 和 讨论 过 大 量 符号 表 的 使 用 和 实现 后 你 会 慢 慢 地 理解 这 些 API 的 设计 初衷 。 | 


Ee 和 练习 中 讨论 算法 设计 时 的 更 多 选择 。 
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3.1.3 用例 举 例 : 

虽然 我 们 会 在 3.5 节 中 详细 说 明 符 号 表 的 更 多 应 用 ， 在 学 习 它 的 实现 之 前 我 们 还 是 应 该 先 看 看 
如 何 使 用 它 。 相 应 地 我 们 这 里 考察 两 个 用 例 : 一 个 用 来 跟踪 算法 在 小 规模 输入 下 的 行为 测试 用 例 ， 
和 -- 个 用 来 寻找 更 高 效 的 实现 的 性 能 测试 用 例 。 
3.1.3.1 “行为 测试 用 例 

为 了 在 小 规模 的 输入 下 跟踪 算法 的 行为 ， 我 们 用 以 下 测试 用 例 测试 我 们 对 符号 表 的 所 有 实现 。 
这 段 代 码 会 从 标准 输入 接受 多 个 字符 串 ， 构 造 一 张 符号 表 来 将 i 和 第 i 个 字符 串 相关 联 ， 然 后 打印 
符号 表 。 在 本 书 中 我 们 假设 所 有 的 字符 串 都 只 有 一 个 字母 。 一 般 我 们 会 使 用 "S E AR CH E X A 
M P L E"。 按 照 我 们 的 约定 ， 用 例会 将 键 S 和 0,， 键 R 和 3 关联 起 来 ， 等 等 。 但 E 的 值 是 12 (而 
非 1 或 者 6) ，A 的 值 为 8( 而 非 2 ) ， 因 为 我 们 的 关联 型 数组 意味 着 每 个 键 的 值 取决 于 最 近 一 -次 
put0 方法 的 调用 。 对 于 符号 表 的 简单 实现 (无 序 ) ， 用 例 的 输出 中 键 的 顺序 是 不 确定 的 ( 这 和 具 
体 实现 有 关 ) ; 对 于 有 序 符号 表 ， 用 例 应 该 将 键 按 顺 序 打 印 出 来 。 这 是 一 种 索引 用 例 ， 它 是 我 们 将 
在 3.5 节 中 讨论 的 一 种 重要 的 符号 表 应 用 的 一 个 特殊 情况 。 

测试 用 例 的 实现 代码 如 下 所 示 。 测 试用 例 的 键 、 值 及 输出 如 图 3.1.1 所 示 。 


铀 EARCIH EA mei le 
入 “0 123 入 WN 
简单 符号 表 | 有 序 符号 
public static void main(String[] args) (一 种 可 能 的 ) 输出 。” 表 的 输出 
{ 
ST<String, Integer> sti 2 3 : 
St = new ST<String, Integer>O); 人 E 12 
for Cint i = 0; !StdIn.isEmpty(); i++) 二 
t H 5 2 
String key = StdIn.readstringO); 5 4 M9 
st.put(key, i); R 3 p 10 
A 8 R 3 
for CString s : st.keysO) 在 seg 
StdOut.println(s + " " + st.get(s)); $0 ‘4 
k 
简单 的 符号 表 测 试用 例 : 图 3.1.1 测试 用 例 的 键 、 值 和 输出 


3.1.3.2 ”性 能 测试 用 例 

FrequencyCounter 用 例会 从 标准 输入 中 得 到 的 一 列 字符 申 并 记录 每 个 ( 长度 至 少 达 到 指定 的 
阔 值 ) 字符 串 的 出 现 次 数 ， 然 后 遍历 所 有 键 并 找 出 出 现 频率 最 高 的 键 。 这 是 一 种 字典 ， 我 们 会 在 3.5 
项 让 更 加 详细 地 讨论 这 种 应 用 。 这 个 用 例 回 答 了 一 个 简单 的 问题 : 哪个 (不 小 于 指定 长 度 的 ) 单词 
在 一 段 文字 中 出 现 的 频率 最 高 ? 在 本 章 中 ， 我 们 会 用 这 个 用 例 以 及 三 段 文字 来 进行 性 能 测试 : 狄 


更 斯 的 《双城记 》 中 的 前 五 行 (tinyTaletxt ) ，《 双 城 记 》 全 书 (tale pt) ， 以 及 一 个 知名 的 叫做 


Leipzig Corpora Collection 的 数据 库 ( leipzig1M-txst ), 内 容 为 一 百 万 条 随机 从 网 络 上 抽取 的 句子 。 例 如 ， 
这 是 tinyTale.txt 的 内 容 : 


本 
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和 % more tinyTale.txt 
it was the best of times 让 was the worst of times 
让 was the age of wisdom it was the age of foolishness 
让 was the epoch of belief it was the epoch of incredulity 
it was the season of light it was the season of darkness 
it was the spring of hope it was the winter of despair 


1 小 型 测试 输入 
二 这 段 文字 共有 60 个 单词 ， 去 掉 重 复 的 单词 还 剩 20 个 ， 其 中 4 个 出 现 了 10 次 (频率 最 高 ) 。 
对 于 这 段 文字 ,，FrequencyCounter 可 能 会 打印 出 让 、was 、the 或 者 of 中 的 某 一 个 单词 (具体 会 打 
印 出 哪 一 个 取决 于 符号 表 的 具体 实现 ) ， 以 及 它 出 现 的 频率 10。 表 3.1.7 总 结 了 大 型 测试 输入 流 的 
性 质 。 卫 


表 3.1.7 大 型 测试 输入 流 的 性 质 












TinyTale.txt leipzig1M .txt 

































单词 数 | 不 同 的 单词 数 | ”单词 数 ”| 不 同 的 单词 数 | ”单词 数 ”| 不 同 的 单词 数 
所 有 单词 135 635 21 191 455 534 580 
长 度 大 于 等 于 8 的 14350 4239 597 299 593 
单词 

4582 1610829 165 555 


长 度 大 于 等 于 10 的 
单词 








FrequencyCounter 用 例 实 现 过 程 如 下 所 示 。 
符号 表 的 用 例 

public class FrequencyCounter 

{ 


public static void main(String[] args) 


{ 





int minlen = Integer.parseInt(args[0]);  // 最 小 键 长 
ST<String, Integer> st = new ST<String, Integer>(); 
while (IStdIn.isEmptyO) 
{ // 构造 符号 表 并 统计 频率 
String word = StdIn.readStringO; 
if (word.1ength() < minlen) continue; // 忽略 较 短 的 单词 
if (!st.contains(word)) st.put(word, 1); = 
else st.put (word, st.get(word) + 1); 
} 
// 找 出 出 现 频率 最 高 的 单词 


String max = " "; 
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st.put(max, 0); 
for (String word : st.keysO) 
if (st.get(word) > st.get(max)) 
max = word; 


StdOut.println(max + " " + st.get(max)); 


} 

这 个 符号 表 的 用 例 统计 了 标准 输入 中 各 % java FrequencyCounter 1 < tinyTale.txt 
个 单词 的 出 现 频 率 ， 然 后 将 频率 最 高 的 单词 。 这 20 
打印 出 来 。 命 令 行 参 数 指定 了 表 中 的 键 的 最 。 % java FrequencyCounter 8 < tale.txt 
短 长 度 。 business 122 


% java FrequencyCounter 10 < leipzig1M.txt 
government 24763 








372| 











研究 符号 表 处 理 大 型 文本 的 性 能 要 考虑 两 个 方面 的 因素 : 首先 ， 每 个 单词 都 会 被 作为 键 进 行 搜 
索 ， 因 此 处 理性 能 和 输入 文本 的 单词 总 量 必然 有 关 ; 其 次 ， 输 入 的 每 个 单词 都 会 被 存 人 符号 表 ( 输 
人 中 不 重复 单词 的 总 数 也 就 是 所 有 键 都 被 插入 以 后 符号 表 的 大 小 ) ， 因 此 输入 流 中 不 同 的 单词 的 总 
数 也 是 相关 的 。 我 们 需要 这 两 个 量 来 估计 FrequencyCounter 的 运行 时 间 ( 作为 开始 ， 请 见 练习 
3.1.6 ) 。 我 们 会 在 学 习 了 一 些 算法 之 后 再 回头 说 明 一 些 细节 ， 但 你 应 该 对 类 似 这 样 的 符号 表 应 用 的 
需求 有 一 个 大 致 的 印象 。 例 如 ， 用 FrequencyCounter 分 析 leipzig1M.txt 中 长 度 不 小 于 8 的 单词 意 
味 着 ， 在 一 个 含有 数 以 千 计 的 键 值 对 的 符号 表 中 进行 上 百 万 次 的 查找 ， 而 互联 网 中 的 一 台 服 务 器 可 
能 需要 在 含有 上 百 万 个 键 值 对 的 表 中 处 理 上 亿 的 交易 。 

这 个 用 例 和 所 有 这 些 例子 都 提出 了 一 个 简单 的 问题 : 我 们 的 实现 能 够 在 一 张 用 多 次 get () 和 
put () 方法 构造 出 的 巨型 符号 表 中 进行 大 量 的 get() 操作 吗 ? 如 果 我 们 的 查找 操作 不 多 ， 那 么 任意 
实现 都 能 够 满足 需要 。 但 没有 一 -个 高 效 的 符号 表 作为 基础 是 无 法 使 用 FrequencyCounter 这 样 的 程 
序 来 处 理 大 型 问题 的 。FrequencyCounter 是 一 种 极为 常见 的 应 用 的 代表 ， 它 的 这 些 特性 也 是 许多 
其 他 符号 表 应 用 的 共性 : 

口 混合 使 用 查找 和 插入 的 操作 ; 

口 大 量 的 不 同 键 ; 

口 查找 操作 比 插 人 操作 多 得 多 ; 

口 虽然 不 可 预测 ， 但 查找 和 插入 操作 的 使 用 模式 并 非 随机 。 

我 们 的 目标 就 是 实现 一 种 符号 表 来 满足 这 些 能 够 解决 典型 的 实际 问题 的 用 例 的 需要 。 

下 面 , 我 们 将 会 学 习 两 种 初级 的 符号 表 实现 并 通过 FrequencyCounter 分 别 评估 它们 的 性 能 。 

在 之 后 的 几 节 中 ， 你 会 学 习 一 些 经 典 的 实现 ， 即 使 对 于 庞大 的 输入 和 符号 表 它 们 的 性 能 仍然 非常 二 
优秀 。 一 一 


3.1.4 ”无 序 链表 中 的 顺序 查找 


符号 表 中 使 用 的 数据 结构 的 一 个 简单 选择 是 链表 ， 每 个 结 点 存储 一 个 键 值 对 ， 如 算法 3.1 中 
的 代码 所 示 。getO 的 实现 即 为 遍历 链表 ， 用 equa1s 0 方法 比较 需 被 查找 的 键 和 每 个 结 点 中 
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Bi 


的 键 。 如 果 匹 配 成 功 我 们 就 返回 相应 的 值 ， 否 则 我 们 返回 nu11。putQ 的 实现 也 是 遍历 链表 ， 
用 equa1s() 方法 比较 需 被 查找 的 键 和 每 个 结 点 中 的 键 。 如 果 匹 配 成 功 我 们 就 用 第 二 个 参数 指定 
的 值 更 新 和 该 键 相 关联 的 值 ， 否 则 我 们 就 用 给 定 的 键 值 对 创建 一 个 新 的 结 点 并 将 其 插入 到 链表 的 
开头 。 这 种 方法 也 被 称 为 顺序 查找 : 在 查找 中 我 们 一 个 一 个 地 顺序 遍历 符号 表 中 的 所 有 键 并 使 用 
equals() 方法 来 寻找 与 被 查找 的 键 匹 配 的 键 。 

算法 3.1 ( SequentialSearchST ) 用 链表 实现 了 符号 表 的 基本 API， 我 们 在 第 1 章 中 的 基础 数 
据 结构 中 学 习 过 它 。 这 里 我 们 将 size() 、keys() 和 即时 型 的 deleteO 方法 留 做 练习 。 这 些 练习 
能 够 巩固 并 加 深 你 对 链表 和 符号 表 的 基本 API 的 理解 。 

这 种 基于 链表 的 实现 能 够 用 于 和 我 们 的 用 例 类 似 的 、 需 要 大 型 符号 表 的 应 用 吗 ? 我 们 已 经 说 
过 ， 分 析 符号 表 算 法 比分 析 排 序 算法 更 困难 ， 因 为 不 同 的 用 例 所 进行 的 操作 序列 各 不 相同 。 对 于 
FrequencyCounter， 最 常见 的 情形 是 虽然 查找 和 插入 的 使 用 模式 是 不 可 预测 的 ， 但 它们 的 使 用 肯 
定 不 是 随机 的 。 因 此 我 们 主要 研究 最 坏 情况 下 的 性 能 .为 了 方便 ,我 们 使 用 命中 表示 一 次 成 功 的 查找 ， 
未 命中 表示 一 次 失败 的 查找 。 使 用 基于 链表 的 符号 表 的 索引 用 例 的 轨迹 如 图 3.1.2 所 示 。 
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图 3.1.2 使 用 基于 链表 的 符号 表 的 索引 用 例 的 轨迹 〈 另 见 彩 插 ) 








算法 3.1 顺序 查找 基于 无 序 链 表 ) 





public class SequentialSearchST<Key, Value> 
private Node first; // 链表 首 结 点 
private class Node 
{ // 链表 结 点 的 定 又 
Key key; 


Value val; 
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Node next; 
public Node(Key key, Value val, Node next) 
站 

this.key = key; 

this.val = val; 


this.next = next; 


} 
public Value get(Key key) 
{ // 查找 给 定 的 键 返回 相关 联 的 慎 
for (Node x = first; x != null; x = x.next) 
if (key.equals(x.key)) 
return x.val; // 合 中 
return null; LV 未 吉 中 
} 
public void put(Key key, Value val) 
{ // 查找 给 定 的 键 ， 找 到 则 更 新 其 值 ， 否 则 在 表 中 新 建 结 点 
for (Node x = first; x != nu11; x = x.next) 
if (key.equalsCx.key)) 
{ x.val = val; return; } // 命中 ,更 新 
first = new Node(key，val，first); // 未 命中 ， 新 建 结 点 


} 

符号 表 的 实现 使 用 了 一 个 私有 内 部 Node 类 来 在 链表 中 保存 键 和 值 。9et() 的 实现 会 顺序 地 搜索 链 
表 查 找 给 定 的 键 ( 找到 则 返回 相关 联 的 值 ) 。put 0 的 实现 也 会 顺序 地 搜索 链表 查找 给 定 的 键 ， 如 果 找 
到 则 更 新 相关 联 的 值 ， 否 则 它 会 用 给 定 的 键 值 对 创建 一 个 新 的 结 点 并 将 其 插入 到 链表 的 开头 。size()、 
keys() 和 即时 型 的 delete() 方法 的 实现 留 做 练习 。 75 
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查找 一 个 已 经 存在 的 键 并 不 需要 线性 级 别 的 时 间 。 一 种 度量 方法 是 查找 表 中 的 每 个 键 ， 并 将 总 
时 间 除 以 N。 在 查找 表 中 的 每 个 键 的 可 能 性 都 相同 的 情况 下 时 ， 这 个 结果 就 是 一 次 查找 平均 所 需 的 
比较 数 。 我 们 将 它 称 为 随机 命中 。 尽 管 符号 表 用 例 的 查找 模式 不 太 可 能 是 随机 的 ， 这 个 模型 也 总 能 
适应 得 很 好 。 我 们 很 容易 就 可 以 得 到 随机 命中 所 需 的 平均 比较 次 数 为 ~N2: 算法 3.1 中 的 get0 方法 
查找 第 一 个 键 需要 1 次 比较 ， 查 找 第 二 个 键 需 要 2 次 比较 ， 如 此 这 般 ， 平 均 比 较 次 数 为 (1+2+…+NX/ 
N=(N+1)2~N/2。 

这 些 分 析 完 全 证 明了 基于 链表 的 实现 以 及 顺序 查找 是 非常 低 效 的 ， 无 法 满足 Frequency- 
Counter 处 理 庞大 输入 问题 的 需求 。 比 较 的 总 次 数 和 查找 次 数 与 插入 次 数 的 乘积 成 正比 。 对 于 《 双 
城 记 》 这 个 数字 大 于 10"， 而 对 于 Leipzig Corpora 数据 库 这 个 数字 大 于 10"。 

按照 惯例 ， 为 了 验证 分 析 结果 我 们 需要 进行 一 些 实验 。 这 里 我 们 用 FrequencyCounter 以 及 命 
令 行 参数 8 来 分 析 tale.txt。 这 将 需要 14 350 次 putO (已 经 说 过 ， 输 入 中 的 每 个 单词 都 需要 一 次 
put() 操作 来 更 新 它 的 出 现 频率 ，contains 0) 方法 的 调用 是 可 以 避免 的 ， 这 里 忽略 了 它 的 成 本 ) 。 
符号 表 将 包含 5737 个 键 ， 也 就 是 说 大 约 三 分 之 一 的 操作 都 将 表 增 大 了 ， 其 余 操作 为 查找 。 为 了 将 
性 能 可 视 化 我 们 使 用 了 VisualAccumu1ator ( 请 见 表 1.2.14 ) 将 每 次 put() 操作 转换 为 两 个 点 : 对 
于 第 i 次 put( 操作 , 我 们 会 在 横 坐 标 为 i, 纵 坐 标 为 该 次 操作 所 进行 的 比较 次 数 的 位 置 画 一 个 灰 点 ， 
以 及 横 坐 标 为 i, 纵 坐 标 为 前 i 次 put0) 操作 累计 所 需 的 平均 比较 次 数 的 位 置 画 一 个 黑 点 ， 如 图 3.1.3 
所 示 。 和 所 有 科学 实验 数据 一 样 ， 这 其 中 包含 了 很 多 信息 供 我 们 研究 ( 这 张 图 含有 14 350 个 灰 点 和 
14 350 个 黑 点 ) 。 这 里 ， 我 们 的 主要 兴趣 在 于 这 张 表 证 实 了 我 们 关于 put() 平均 需要 访问 半 条 链表 
的 猜想 。 虽 然 实际 的 数据 比 一 半 稍 少 ,但 对 这 个 事实 ( 以 及 图 表 曲 线 的 形状 ) 最 好 的 解释 应 该 是 应 
用 的 特性 ， 而 非 算法 ( 请 见 练习 3.1.36 ) 。 

尽管 某 个 具体 用 例 的 性 能 特点 可 能 是 复杂 的 ， 但 只 要 使 用 我 们 准备 的 文本 或 者 随机 有 序 输 
入 以 及 我 们 在 第 1 章 中 介绍 的 DoublingTest 程序 ， 我 们 还 是 能 够 轻松 估计 出 FrequencyCounter 
的 性 能 并 测试 验证 的 。 我 们 将 这 些 测试 留 给 练习 和 接 下 来 将 要 学 习 的 更 加 复杂 的 实现 。 如 果 
你 并 不 觉得 我 们 需要 更 快 的 实现 ， 请 一 定 完成 这 些 练习 ! (或 者 用 FrequencyCounter 调用 
SequentialSearchST 来 处 理 leipzig1M.txt ! ) 


5737 


成 本 


一 2246 


0 





I by 
0 操作 14350 
图 3.1.3 使 用 SequentialSearchST， 运行 java FrequencyCounter 8 < tale.txt 的 成 本 


3.1.5 ”有 序数 组 中 的 二 分 查找 
下 面 我 们 要 学 习 有 序 符号 表 API 的 完整 实现 。 它 使 用 的 数据 结构 是 一 对 平行 的 数组 ， 一 个 存储 
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键 一 个 存储 值 。 算 法 3.2 ( BinarySearchST ) 可 以 保证 数组 中 Comparable 类 型 的 键 有 序 ， 然 后 使 
用 数组 的 索引 来 高 效 地 实现 get () 和 其 他 操作 。 

这 份 实现 的 核心 是 rank() 方法 ， 它 返回 表 中 小 于 给 定 键 的 键 的 数量 。 对 于 get() 方法 ， 只 要 
给 定 的 键 存在 于 表 中 ，rank( 方法 就 能 够 精确 地 告诉 我 们 在 哪里 能 够 找到 它 ( 如 果 找 不 到 ， 那 它 
肯定 就 不 在 表 中 了 ) 。 

对 于 putO 方法 ， 只 要 给 定 的 键 存在 于 表 中 ，rank() 方法 就 能 够 精确 地 告诉 我 们 到 哪里 去 更 
新 它 的 值 ， 以 及 当 键 不 在 表 中 时 将 键 存储 到 表 的 何 处 。 我 们 将 所 有 更 大 的 键 向 后 移动 一 格 来 腾 出 位 
置 (从 后 向 前 移动 ) 并 将 给 定 的 键 值 对 分 别 插入 到 各 自 数组 中 的 合适 位 置 。 结 合 我 们 测试 用 例 的 轨 
迹 来 研究 BinarySearchST 也 是 学 习 这 种 数据 结构 的 好 方法 。 

这 段 代码 为 键 和 值 使 用 了 两 个 数组 ( 另 一 种 方式 请 见 练习 3.1.12 ) 。 和 我 们 在 第 1 章 中 对 泛 
型 的 栈 和 队列 的 实现 一 样 ， 这 段 代码 也 需要 创建 一 个 Key 类 型 的 Comparable 对 象 的 数组 和 一 个 
Value 类 型 的 0bject 对 象 的 数组 ， 并 在 构造 函数 中 将 它们 转化 回 Key[] 和 Valuer]。 和 以 前 一 样 ， 
我 们 可 以 动态 调整 数组 ， 使 得 用 例 无 需 担 心 数组 大 小 ( 请 注意 ， 你 会 发 现 这 种 方法 对 于 大 数组 实在 
是 太 慢 了 ) 。 

使 用 基于 有 序数 组 的 符号 表 实现 的 索引 用 例 的 轨迹 如 表 3.1.8 所 示 。 


表 3.1.8 使 用 基于 有 序数 组 的 符号 表 实 现 的 索引 用 例 的 轨迹 
keys[] vals[] 
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算法 3.2 二 分 查找 (基于 有 序数 组 ) 


public class BinarySearchST<Key extends Comparable<key>, Value> 
‘ 
private Key[] keys; 
private Value[] vals; 
private int N; 
public BinarySearchsTCint capacity) 
人 // 调整 教 组 大 小 的 标准 代码 请 见 算法 1.1 
keys = (Key[]) new Comparable[capacity]; 
vals = (Value[]) new Object[capacity]; 
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} 

public int sizeO 

{ return N; } 

public Value get(Key key) 

{ 
if CisEmptyO) return null; = 
int i = rankCkey); i 
if (i < N && keys[i].compareTo(key) == 0) return vals[i]; 
else return null; 

Ns 

public int rank(Key key) 

// 请 见 算法 3.2 ( 续 1) 











public void put(Key key, Value val) 

{ // 查找 键 ， 找 到 则 更 新 值 ， 否 则 创建 新 的 元 素 
int 1 = rankCkey); 
if Ci < N &8 keys[i].compareTo(key) == 0) 
{ vals[i] = val; return; } 
for (int j = N; j > i; 
{ keys[j] = keys[j-1]; vals[j] = vals[j-1]; } 
keys[i] = key; vals[i] = val; 
Mi 

. 

public void delete(Key key) 

// 该 方 法 的 实现 请 见 练习 3.1.16 


2 


这 段 符号 表 的 实现 用 两 个 数组 来 保存 键 和 值 : 和 1.3 节 中 基于 数组 的 栈 一 样 ，put() 方法 会 在 插入 
新 元 素 前 将 所 有 较 大 的 键 向 后 移动 一 格 。 这 里 省 略 了 调整 数组 大 小 部 分 的 代码 。 








3.1.5.1 二 分 查找 
我 们 使 用 有 序数 组 存储 键 的 原因 是 ,第 1 pl sh yg 
索引 大 大 减少 每 次 查找 所 需 的 比较 次 数 。 我 
们 会 使 用 有 序 索引 数组 来 标识 被 查找 的 键 可 public int rank(Key key, int 1o，int hi) 
能 存在 的 子 数组 的 大 小 范围 。 在 查找 时 ， 我 if (hi < 10) return 1o; 
们 先 将 被 查找 的 键 和 子 数组 的 中 间 键 比较 。 int mid = lo + (hi - 10) / 2; 


如 果 被 查找 的 键 小 于 中 间 键 ,我 们 就 在 左 于 。 。 尘 ” TO Ge [1 


数组 中 继续 查找 ， 如 果 大 于 我 们 就 在 右 子 数 he 
组 中 继续 查找 ， 否 则 中 间 键 就 是 我 们 要 找 的 ee A 
键 。 算法 3.2( 续 1) 中 实现 rank() 方法 的 else return mid; 


代码 使 用 了 刚才 讨论 的 二 分 查找 法 。 这 个 实 

现 值得 我 们 仔细 研究 。 作 为 开始 ， 我 们 来 看 -: 

看 这 段 等 价 的 递归 代码 。 和 
调用 这 里 的 rank(key， 0，N-1) 所 进行 的 比较 和 调用 算法 3.2 ( 续 1 ) 的 实现 所 进行 的 比较 完 

全 相同 = 但 如 1.1 节 中 讨论 的 , 这 个 版 本 更 好 地 暴露 了 算法 的 结构 。 递 归 的 rank() 保留 了 以 下 性 质 : 
口 如 果 表 中 存在 该 键 ，rank (7 应 该 返回 该 键 的 位 置 ， 也 就 是 表 中 小 于 它 的 键 的 数量 ; 
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口 如 果 表 中 不 存在 该 键 ，rank() 还 是 应 该 返回 表 中 小 于 它 的 键 的 数量 。 

好 好 想 想 算法 3.2( 续 1 ) 中 非 递归 的 rank() 为 什么 能 够 做 到 这 些 ( 你 可 以 证 明 两 个 版 本 的 等 
价 性 ， 或 者 直接 证 明 非 递归 版 本 中 的 循环 在 结束 时 1o 的 值 正 好 等 于 表 中 小 于 被 查找 的 键 的 键 的 数 
量 ) ， 所 有 程序 员 都 能 从 这 些 思考 中 有 所 收获 。 ( 提示 : 1o 的 初始 值 为 0， 且 永远 不 会 变 小 ) 


算法 3.2 ( 续 1) 基于 有 序数 组 的 二 分 查找 〈 和 迭代 ) 





public int rank(Key key) 
{ 


int lo = 0, hi = N-1; 
while (lo <= hi) 
{ 


int mid = lo + (hi - 10) / 2; 

int cmp = key.compareTo(keys[mid]); 
if Ccmp < 0) hi = mid - 1; 
else if (cp > 0) lo = mid + 1; 
else return mid; 


} 


return 1o; 


} 


该 方法 实现 了 正文 所 述 的 经 典 算法 来 计算 小 于 给 定 键 的 键 的 数量 。 它 首先 将 key 和 中 间 键 比较 ， 如 
果 相等 则 返回 其 索引 ; 如 果 小 于 中 间 键 则 在 左 半 部 分 查找 ;大 于 则 在 右 半 部 分 查找 。 


keys[] 
对 p 的 命中 查找 0 1 2 3 4 5 6 7 8 9 
1o hi mi 
A 黑色 的 元 素 是 
5 9 7 MP R_S X- 一 一 >019…h] 中 的 刍 
Sb NP jm 的 元 来 是 
6 6 6 Pp 中 间 键 a[mid] 
对 0 的 未 命中 查找 中 间 健 和 P 相 等 时 循环 退出 
lo hi mid 
094 ACEHLMPRSX 
5 9 7 MP RS X 
5 65 MP 
7 56.6 Pp 
~ 


1o>hi 时 循环 退出 ， 返 回 7 
在 有 序数 组 中 使 用 二 分 法 查找 排名 的 轨迹 





算法 3.2 ( 续 2) 基于 二 分 查找 的 有 序 符号 表 的 其 他 操作 


public Key min() 
{ return keys[0]; } 





public Key max() 
{ return keys[N-1]; } 


public Key selectCint k) 
{ return keys[k]; } 
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public Key ceiling(Key key) 
{ 
int 1 = rankCkey); 
return keys[i]; 


} 


public Key floor(Key key) 
// 请 见 练习 3.1.17 


public Key delete(Key key) 
// 请 见 练习 3.1.16 


public Iterable<Key> keys(Key 1o, Key hi) 
{ 
Queue<key> q = new Queue<Key>(); 
for (int 1 = rank(1o); 1 < rankChi); i++) 
q.enqueue(keys[i]); 
if (contains(hi)) 
q-enqueue(keys[rankChi)]); 
return q; 
} 


这 些 方法 ， 以 及 练习 3.1.16 和 练习 3.1.17， 组 成 了 我 们 对 使 用 二 分 查找 的 有 序 符号 表 的 完整 实现 。 
min()、max() 和 select() 方法 都 很 简单 ， 只 需 按照 给 定 的 位 置 从 数组 中 返回 相应 的 值 即 可 。rankO) 
方法 实现 了 二 分 查找 ， 是 其 他 方法 的 基石 。floorO 和 delete( 方法 虽然 也 不 难 ， 但 稍微 复杂 一 些 ， 在 
此 留 做 练习 。 





3.1.5.2 ”其 他 操作 

因为 键 被 保存 在 有 序数 组 中 ， 算 法 3.2 ( 续 2 ) 中 和 顺序 有 关 的 大 多 数 操作 都 一 目 了 然 。 例 如， 
调用 select(k) 就 相当 于 返回 keys[k] 。 我 们 将 delete() 和 floor() 留 做 练习 。 你 应 该 研究 一 
下 ceiling() 和 带 两 个 参数 的 keys (0) 方法 的 实现 ， 并 完成 练习 来 巩固 和 加 深 你 对 有 序 符号 表 的 
API 及 其 实现 的 理解 。 


3.1.6 ”对 二 分 查找 的 分 析 


rank() 的 递归 实现 还 能 够 让 我 们 立即 得 到 一 个 结论 : 二 分 查找 很 快 ， 因 为 递归 关系 可 以 说 明 
算法 所 需 比 较 次 数 的 上 界 。 


命题 B。 在 NN 个 键 的 有 序数 组 中 进行 二 分 查找 最 多 需要 ( lgN+1 ) 次 比较 (无论 是 否 成 功 ) 。 


证 明 。 这 里 的 分 析 和 对 归并 排序 的 分 析 (第 2 章 的 命题 F) 类 似 (但 相对 简单 ) 。 令 CCN) 为 
在 大 小 为 W 的 符号 表 中 查找 一 个 键 所 震 进 行 的 比较 次 数 。 显 然 我 们 有 CUO)=0; CU1)=1， 且 对 于 
N20 我 们 可 以 写 出 一 个 和 递归 方法 直接 对 应 的 归纳 关系 式 : 

CO < C(LN2J)+1 
无 论 查找 会 在 中 间 元 素 的 左 侧 还 是 右 侧 继续 ， 子 数组 的 大 小 都 不 会 超过 [NM2]， 我 们 需要 一 次 
比较 来 检查 中 间 元 素 和 被 查找 的 键 是 否 相等 ， 并 决定 继续 查找 左 侧 还 是 右 侧 的 子 数组 。 当 N 为 
2 的 备 减 1 时 (NE2"-1 ) ， 这 种 北 推 很 容易 。 首 先 ， 因 为 LN/2=2"'_1， 所 以 我 们 有 : 


C2-D) < CC 一 -0D+l 
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用 这 个 公式 代 换 不 等 式 右边 的 第 一 项 可 得 : 
CO-D < COI 
将 上 面 这 一 步 重复 n-2 次 可 得 : 
C2-D) < CO 
最 后 的 结果 即 # 
CN=C(2) 三 对 1<lgN+L 


对 于 一 般 的 W， 确切 的 结论 更 加 复杂 ， 但 不 难 通过 以 上 论证 推广 得 到 ( 请 见 练习 3.1.20) 。 二 
分 查找 所 需 时 间 必然 在 对 数 范围 之 内 。 


刚才 给 出 的 实现 中 ，cei1ing0: 只 是 调用 了 一 次 rank()， le size() 方 
法 调用 了 两 次 .rankC) ， 因 此 这 份 证 明 也 保证 了 这 些 ; 
操作 (包括 floor() ) 所 需 的 时 间 最 多 是 对 数 级 别 的 
(minO 、max() 和 selectC) 操作 所 需 的 时 间 都 是 常 ” 事 319 BinarySearchST 的 操作 的 成 本 
运行 所 需 时 间 的 
数 级 别 的 ) 。 方 法 ee 383 
尽管 能 够 保证 查找 所 需 的 时 间 是 对 数 级 别 




















的 ，BinarysearchsT 仍 然 无 法 支持 我 们 用 类 似 PerO 
FrequencyCounter 的 程序 来 处 理 大 型 问题 ， 因 为 putO 9etO 人 
方法 还 是 太 慢 了 。 二 分 查找 减少 了 比较 的 次 数 但 无 法 减 ”deleteO 
少 运行 所 需 时 间 ， 因 为 它 无 法 改变 以 下 事实 : 在 键 是 随 。 - containsO logN. 


机 排列 的 情况 下 ， 构 造 一 个 基于 有 序数 组 的 符号 表 所 需 sizeO 1 
要 访问 数组 的 次 数 是 数组 长 度 的 平方 级 别 ( 在 实际 情况 
下 键 的 排列 虽然 不 是 随机 的 ， 但 仍然 很 好 地 符合 这 个 模 
型 ) 。BinarySearchST 的 操作 的 成 本 如 表 3.1.9 所 示 。 


minO 1 


maxO 1 


floorO logN 
命题 B( 续 ) 。 向 大 小 为 N 的 有 序数 组 中 插入 一 个 ceilingO logN 
新 的 元 素 在 最 坏 情况 下 需要 访问 ~ 2N 次 数组 ， 因 此 rankO logN 
向 一 个 空 符号 表 中 插入 N 个 元 素 在 最 坏 情况 下 需要 selectO 1 
访问 ~ MV 次数 组。 deleteMinO NT 
证 明 。 同 命题 A。 deleteMaxO 1 





对 于 含有 10 个 不 同 键 的 《双城记 》， 构建 符号 表 需 要 访问 数组 约 10! 次 ;而 对 于 含有 104 个 

.不 同 键 的 Leipzig 项 目 则 需要 访问 数组 10" 次 。 虽 然 现代 计 算 机 可 勉强 实现 ， 但 这 样 的 成 本 还 是 过 
高生 

回头 看 看 FrequencyCounter 在 参数 为 8 时 put() 操作 的 性 能 ， 我 们 可 以 看 到 平均 情况 下 的 

”比较 次 数 ( 包括 访问 数组 的 次 数 ) 从 SequentialSearchST 的 2246 次 降低 到 了 BinarySearchST 

“的 484 次 (如 图 3.1.4 所 示 ) 。 这 比 我 们 在 分 析 中 预测 的 还 要 更 好 ， 额外 的 部 分 可 能 能 够 再 次 通过 

应 用 的 性 质 得 到 解释 ( 请 见 练习 3.1.36 ) 。 这 次 改进 令 人 印象 深刻 , 但 你 会 看 到 , 我 们 还 能 做 得 更 好 。 
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图 3.1.4 使 用 BinarySearchST， 运 行 java FrequencyCounter 8 < tale.txt 的 成 本 


3.1.7 预览 

一 般 情况 下 二 分 查找 都 比 顺序 查找 快 得 多 ， 它 也 是 众多 实际 应 用 程序 的 最 佳 选择 。 对 于 一 
个 静态 表 ( 不 允许 插入 ) 来 说 ， 将 其 在 初始 化 时 就 排序 是 值得 的 ， 如 第 1 章 中 的 二 分 查找 所 示 
(请 见 表 1.2.15 ) 。 即 使 查找 前 所 有 的 键 值 对 已 知 ( 这 在 应 用 程序 中 是 一 种 常见 的 情况 ) ， 为 
BinarySearchST 添 加 一 个 能 够 初始 化 并 将 符号 表 排 序 的 构造 函数 也 是 有 意义 的 ( 请 见 练习 3.1.12 )。 
当然 ， 二 分 查找 也 不 适合 很 多 应 用 。 例 如 ， 它 无 法 处 理 Leipzig Corpora 数据 库 ， 因 为 查找 和 插入 操 
作 是 混合 进行 的 ， 而 且 符号 表 也 太 大 了 。 如 我 们 所 强调 的 那样 ， 现 代 应 用 需要 同时 能 够 支持 高 效 的 
查找 和 插 和 人 两 种 操作 的 符号 表 实 现 。 也 就 是 说 ， 我 们 需要 在 构造 庞大 的 符号 表 的 同时 能 够 任意 插 和 人 
( 也许 还 有 删除 ) 键 值 对 ， 同 时 也 要 能 够 完成 查找 操作 。 

表 3.1.10 给 出 了 本 节 中 介绍 的 符号 表 的 初级 实现 的 性 能 特点 。 表 中 给 出 的 是 总 成 本 中 的 最 高 级 
项 (对 于 二 分 查找 是 数组 的 访问 次 数 ， 对 于 其 他 则 是 比较 次 数 ) ， 即 运行 时 间 的 增长 数量 级 。 

表 3.1.10 简单 的 符号 表 实现 的 成 本 总 结 
最 坏 情 况 下 的 成 本 平均 情况 下 的 成 本 


(次 插入 后 ) 《CN 次 随机 插入 后 ) 是 否 高 效 地 支持 有 序 
算法 (数据 结构 ) i 
查 找 | 插 入 















旺 序 查找 (无 序 链表 ) 
二 分 查找 (有 序数 组 ) 





核心 的 问题 在 于 我 们 能 否 找到 能 够 同时 保证 查找 和 插入 操作 都 是 对 数 级 别 的 算法 和 数据 结构 。 
答案 是 令 人 兴奋 的 “可 以 ”! 这 个 答案 也 正 是 本 章 的 重点 所 在 。 和 第 2 章 讨论 的 高 效 排序 算法 一 - 样 ， 
能 够 高 效 地 查找 和 插入 的 符号 表 是 算法 领域 对 世界 最 重要 的 贡献 之 一 ， 也 是 我 们 今天 能 够 享受 的 丰 
富 计算 性 基础 设施 的 开发 基础 。 

我 们 如 何 能 够 实现 这 个 目标 呢 ? 要 支持 高 效 的 插入 操作 ， 我 们 似乎 需要 一 种 链 式 结构 。 但 单 链 
接 的 链表 是 无 法 使 用 二 分 查找 法 的 ， 因 为 二 分 查找 的 高 效 来 自 于 能 够 快速 通过 索引 取得 任何 子 数组 
的 中 间 元 素 (但 得 到 -条 链表 的 中 间 元 素 的 唯一 方法 只 能 是 沿 链表 遍历 ) 。 为 了 将 二 分 查找 的 效率 
和 链表 的 灵活 性 结合 起 来 ， 我 们 需要 更 加 复杂 的 数据 结构 。 能 够 同时 拥有 两 者 的 就 是 二 又 查找 树 ， 
它 也 是 我 们 下 面 两 节 的 主题 。 我 们 会 将 散 列 表 留 到 3.4 节 中 讨论 。 
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在 本 章 中 我 们 会 学 习 6 种 符号 表 的 实现 ， 这 里 我 们 先 给 出 一 个 简单 的 预览 。 表 3.1.11 包含 一 系 
列 数据 结构 以 及 它们 适用 和 不 适用 于 某 个 应 用 场景 的 原因 ， 按 照 我 们 学 习 它们 的 先后 顺序 排列 。 


表 3.1.11 符号 表 的 各 种 实现 的 优 缺 点 

















使 用 的 数据 结构 实 现 优 点 缺 点 
链表 ( 顺序 查找 ) SequentialSearchST 适用 于 小 型 问题 对 于 大 型 符号 表 很 慢 
要 最 优 的 查找 效率 和 空间 需 
有 了 数组 (二 分 BinarysearchsT 家 ;能够 进行 有 序 人 相关 。 插入 换 作 很 
实现 简单 ， 能 够 进行 有 序 。 没有 性 能 上 界 的 保证 
二 又 查 找 树 Sy 性 相关 的 操作 链接 需要 额外 的 空间 
最 优 的 查找 和 插入 效率 ， 能 
平衡 二 叉 查找 树 ”RedB1ackBST 最 仿 拘 夺 挤 各 牛人 效能。 链接 需要 概 外 的 空间 
需要 计算 每 种 类 型 的 数据 的 散 列 无 
二 SeparateChainHashST 。 能 够 快速 地 查找 和 插入 常 。 各 浊 六 务 讶 各 要 的 数 章 的 各 下 庆 
LinearProbingHashST 见 类 型 的 数据 结 点 需要 额外 的 空间 


在 学 习 中 我 们 会 仔细 了 解 每 种 算法 和 实现 的 各 种 性 质 ， 这 里 的 简单 特性 是 为 了 帮助 你 在 学 习 它 
们 的 同时 能 够 从 全 局 的 高 度 来 理解 它们 。 一 句 话 ， 我 们 有 若干 种 高 效 的 符号 表 实 现 ， 它 们 能 够 并 且 
已 经 被 应 用 于 无 数 程序 之 中 了 。 386 
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间 为 什么 符号 表 不 像 2.4 节 中 优先 队列 那样 使 用 一 个 Comparable 的 Item 类 型 ， 而 是 对 于 键 和 值 使 用 
不 同 的 数据 类 型 ? 

答 这 的 确 是 一 种 可 行 的 办 法 。 这 两 者 代表 了 将 键 和 值 关联 起 来 的 两 种 不 同方 式 一 一 我 们 可 以 构造 一 
种 将 键 包 含 在 其 中 的 数据 结构 来 隐 式 关联 键 值 或 是 显 式 地 将 键 和 值 区 分 开 来 。 对 于 符号 表 ， 我 们 
选择 突出 关联 数组 的 抽象 形式 。 同 时 也 请 注意 ， 符 号 表 的 用 例 在 查找 时 只 会 指定 一 个 键 ， 而 非 一 
个 键 值 对 。 

间 为 什么 要 用 equals() ? 为 什么 不 一 直 使 用 compareToO) ? 

答 并 不 是 所 有 的 数据 产生 的 键 值 对 都 能 够 进行 比较 ， 尽 管 有 时 候 将 它们 保存 在 符号 表 可 以 。 举 一 个 比 
较 极端 的 例子 , 你 可 能 会 用 一 幅 照片 或 者 一 首 歌 作为 键 , 但 没 法 比较 它们 , 只 能 知道 它们 是 否 相等 (也 
要 花 点 儿 工夫 ) 。 

问 为 什么 键 的 值 不 能 为 空 (nu11 ) ? 

答 ”因为 我 们 会 用 Key 调用 compareTo() 或 者 equalsQ 〇 方法 ， 因 此 我 们 假设 它 是 一 个 0bject。 但 是 
当 a 为 nu11 时 a.compareTo(b) 会 抛 出 一 个 空 指针 异常 。 如 果 能 消除 这 种 可 能 性 ， 用 例 的 代码 能 够 
更 简单 。 

间 为 什么 不 和 排序 一 样 使 用 一 个 类 似 于 less() 的 方法 ? 

答 在 符号 表 中 等 价 性 比较 特殊 ， 因 此 我 们 还 需要 一 个 方法 来 测试 等 价 性 。 为 了 避免 增加 本 质 上 功能 相 
同 的 方法 ， 我 们 使 用 了 Java 内 置 的 equal1sC) 和 compareTo()。 

问 在 BinarySearchsT 中 的 类 型 转换 之 前 ,为 什么 不 将 key[] 和 val[] 一 样 声明 为 Object[] ( 而 是 
Comparable[] ) ? 
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答 “ 问 得 好 。 如 果 你 这 么 做 ， 你 会 得 到 一 个 ClassCastException， 因 为 键 只 能 是 Comparable 的 ( 以 

保证 key[] 中 的 元 素 都 有 compareTo() 方法 ) 。 因 此 将 key[] 声明 为 Comparable[] 是 必需 的 。 深 
”人 程序 语言 的 设计 细节 来 解释 这 里 的 原因 可 能 会 有 些 跑题 。 i th ie A 
象 和 数组 的 代码 中 我 们 都 会 照 此 办 理 : 

问 ”如 果 我 们 需要 将 多 个 值 关 联 到 同一 个 键 怎么 办 ? 例如 ， 如 果 我 们 在 应 用 程序 中 用 Date 日 期 作为 键 ， 
那 不 会 需要 处 理 重复 的 键 吗 ? 

答 “可 能 会 ， 也 可 能 不 会 。 例 如 ， 两 列 火车 不 可 能 同时 在 同一 条 轨道 上 到 达 同 一 个 车 站 (但 它们 可 以 在 
不 同 的 铁轨 上 同时 到 站 ) 。 处 理 这 种 情形 有 两 个 办 法 : 用 其 他 信息 来 消除 重复 或 者 使 用 Queue 类 型 
来 存储 所 有 有 相同 键 的 值 。 我 们 会 在 3.5 节 中 详细 讨论 符号 表 的 应 用 。 

问 3,1.7 节 中 将 表 预 排序 的 想法 看 起 来 是 个 好 主意 ， 为 什么 把 它 留 作 一 道 练习 【请 见 练习 3.1.12 ) ? 

答 的确 , 在 某 些 应 用 中 它 确 实 是 最 佳 的 选择 。 但 在 一 个 希望 实现 快速 查找 的 数据 结构 中 为 了 “图 方便 ” 
而 加 入 一 个 低 效 的 插 人 方法 会 变 成 一 个 性 能 陷阱 ， 因 为 一 个 普通 用 例 可 能 会 在 一 张 很 大 的 表 中 混 
合 使 用 查找 和 插 人 操作 却 发 现 运 行 所 需 的 时 间 是 平方 级 别 的 。 这 种 陷阱 太 常 见 了 ， 因 此 当 你 使 用 
他 人 开发 的 软件 ， 尤 其 是 接口 繁多 时 ， 你 应 该 加 倍 小 心 。 当 对 象 含有 大 量 “ 便 捷 ” 方 法 而 导致 到 
处 都 是 性 能 陷阱 ， 而 用 例 却 可 能 认为 所 有 的 方法 都 同样 高 效 时 ， 这 个 问题 就 非常 严重 了 。Java 的 
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ArrayList 类 就 是 这 样 的 一 个 例子 请 见 练习 3.5.27 ) 。 





es sae 
3.1.1 编写 一 段 程序 ， 创 建 一 张 符号 表 并 建立 字母 成 绩 和 数值 分 数 的 对 应 关系 ， 如 下 表 所 示 。 从 标准 输 
人 读 取 一 系列 字母 成 绩 ， 计 算 并 打印 GPA ( 字母 成 绩 对 应 的 分 数 的 平均 值 ) 。 
A | A 
400 | 3.67 


A+ 
4.33 


3.1.2 开发 一 个 符号 表 的 实现 ArrayST， 使 用 (无 序 ) 数组 来 实现 我 们 的 基本 API。 

3.1.3 ”开发 一 个 符号 表 的 实现 0rderedSequentialSearchST， 使 用 有 序 链表 来 实现 我 们 的 有 序 符号 表 
API, 

3.1.4 ”开发 抽象 数据 类 型 Time 和 Event 来 处 理 表 3.1.5 中 的 例子 中 的 数据 。 

3.1.5 实现 SequentialSearchsT 中 的 size()、delete() 和 keysQ 方法 。 

3.1.6 用 输入 中 的 单词 总 数 下 和 不 同 单词 总 数 忆 的 函数 给 出 FrequencyCounter 调用 的 putC) 和 
get () 方法 的 次 数 。 4 

3.1.7 对 于 NE10、10、10、10'、10 和 10 在 入 个 小 于 10060 的 随机 非 负 整数 中 Frequency Counter 
平均 能 够 找到 多 少 个 不 同 的 键 ? 

3.1.8” 在 《双城记 》 中 ， 使 用 频率 最 高 的 长 度 大 于 等 于 10 的 单词 是 什么 ? 

3.1.9 在 FrequencyCounter 中 添加 追踪 putQ 方法 的 最 后 一 次 调用 的 代码 。 打 印 出 最 后 插入 的 那个 
单词 以 及 在 此 之 前 总 共 从 输入 中 处 理 了 多 少 个 单词 。 用 你 的 程序 处 理 tale.txt 中 长 度 分 别 大 于 等 于 
1、8 和 10 的 单词 。 

3.1.10 给 出 用 SequentialSearchsT 将 键 E AS Y Q U E S TI 0 N 插 入 一 个 空 符号 表 的 过 程 的 轨迹 。 

一 共 进 行 了 多 少 次 比较 ? s 
3.1.11 给 出 用 BinarysearchsT 将 键 EA SYQUE STI0N 插 入 一 个 空 符号 表 的 过 程 的 轨迹 。 一 


BE 
333 | 300 | 267 | 233 | 200| 167 | 1oo | ooo 
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共 进 行 了 多 少 次 比较 ? 

3.1.12 修改 BinarySearchST， 用 一 个 Item 对 象 的 数组 而 非 两 个 平行 数组 来 保存 键 和 值 。 添 加 一 个 构 
造 函 数 ， 接 受 一 个 Item 的 数组 为 参数 并 将 其 归并 排序 。 389| 

3.1.13 ”对 于 一 个 会 随机 混合 进行 10 次 put() 和 10' 次 get0) 操作 的 应 用 程序 ， 你 会 使 用 本 节 中 的 哪 
种 符号 表 的 实现 ? 说 明理 由 。 

3.1.14 ”对 于 一 个 会 随机 混合 进行 10' 次 put() 和 10 次 get 0 操作 的 应 用 程序 ， 你 会 使 用 本 节 中 的 哪 
种 符号 表 的 实现 ? 说 明理 由 。 

3.1.15 假设 在 一 个 BinarySearchST 的 用 例 程序 中 ， 查 找 操作 的 次 数 是 插入 操作 的 1000 倍 。 当 分 别 进 
行 10"、10 和 10? 次 查找 时 ， 请 估计 插入 操作 在 总 耗 时 中 的 比例 。 

3.1.16 为 BinarySearchST 实现 delete() 方法 。 

3.1.17 为 BinarySearchST 实现 floor() 方法 。 

3.1.18 证明 BinarySearchST 中 rank( 方法 的 实现 的 正确 性 。 

3.1.19 修改 FrequencyCounter， 打 印 出 现 频率 最 高 的 所 有 单词 ， 而 非 其 中 之 一 。 提 示 : 请 用 Queue。 

3.1.20 ” 补 全 命题 B 的 证 明 (证 明 N 的 一 般 情况 ) 。 提 示 : 先 证 明 C(N) 的 单调 性 ， 即 对 于 所 有 的 N>0， 
CO < CCNHD 


3.1.21 内 存 使 用 。 基 于 14 节 中 的 假设 ， 对 于 入 对 键 值 比较 BinarySearchST 和 SequentialSearchST 的 内 
存 使 用 情况 。 不 需要 记录 键 值 本 身 占用 的 内 存 ， 只 统计 它们 的 引用 。 对 于 BinarySearchsT， 假 
设 数组 大 小 可 以 动态 调整 ， 数 组 中 被 占用 的 空间 比例 为 25% 一 100%。 

3.1.22 自 组 织 查找 。 自 组 织 查找 指 的 是 一 种 能 够 将 数组 元 素 重新 排序 使 得 被 访问 频率 较 高 的 元 素 更 容 
易 被 找到 的 查找 算法 。 请 修改 你 为 练习 3.1.2 给 出 的 答案 ， 在 每 次 查找 命中 时 : 将 被 找到 的 键 值 
对 移动 到 数组 的 开头 ,将 所 有 中 间 的 键 值 对 向 右 移动 一 格 。 这 个 启发 式 的 过 程 被 称 为 前 移 编码 。 

3.1.23 二 分 查找 的 分 析 。 请 证 明 对 于 大 小 为 N 的 符号 表 ， 一 次 二 分 查找 所 需 的 最 大 比较 次 数 正好 是 N 
的 二 进 制 表示 的 位 数 ， 因 为 右 移 一 位 的 操作 会 将 二 进 制 的 入 变 为 二 进 制 的 [N/2]。 

3.1.24 ”插值 法 查找 。 假 设 符号 表 的 键 支持 算术 操作 ( 例如 ， 它 们 可 能 是 Double 或 者 Interger 类 型 的 
值 ) 。 编 写 一 个 二 分 查找 来 模拟 查 字典 的 行为 ， 例 如 当 单词 的 首 字母 在 字母 表 的 开头 时 我 们 也 
会 在 字典 的 前 半 部 分 进行 查找 。 具 体 来 说 ， 设 ,为 符号 表 的 第 一 个 键 ， 为 符号 表 的 最 后 一 个 
键 ， 当 要 查找 时 ， 先 和 Lk-k)hrk)] 进行 比较 ， 而 非 取 中 间 元 素 。 用 SearchCompare 了 调 
用 FrequencyCounter 来 比较 你 的 实现 和 BinarySearchST 的 性 能 。 

3.1.25 组 存 。 因 为 默认 的 contains() 的 实现 中 调用 了 get() ， 所 以 FrequencyCounter 的 内 循环 会 将 
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同一 个 键 查找 两 三 遍 ， 
if (!st.contains(word)) st.put(word, 1); 
else st.put(word, st.get(word) + 1); 


为 了 能 够 提高 这 样 的 用 例 代码 的 效率 ， 我 们 可 以 用 一 种 叫 缓存 的 技术 手段 ， 即 将 访问 最 频繁 的 
键 的 位 置 保存 在 一 个 变量 中 。 修改 SequentialSearchST 和 BinarySearchST 来 实现 这 个 点 子 。 ”91 














@ searchCompare 应 该 是 一 个 类 似 于 SortCompare 的 类 ， 但 实际 上 正文 中 并 没有 任何 关于 这 个 SearchCom- 
pare 类 的 内 容 。 一 一 译 者 注 
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基于 字典 的 频率 统计 。 修 改 FrequencyCounter， 接 受 一 个 字典 文件 作为 参数 ， 统 计 标 准 输入 中 
出 现在 字典 中 的 单词 的 频率 ， 并 将 单词 和 频率 打印 为 两 张 表格 ， 一 张 按照 频率 高 低 排序 ， 一 张 
按照 字典 顺序 排序 。 i 3 
小 符号 表 。 假 设 一 段 BinarySearchST 的 用 例 插入 了 N 个 不 同 的 键 并 会 进行 5 次 查找 。. 当 构造 
表 的 成 本 和 所 有 查找 的 总 成 本 相同 时 ， 给 出 5 的 增长 数量 级 。 

有 序 的 插入 。 修 改 BinarySearchST， 使 得 插入 一 个 比 当前 所 有 键 都 大 的 键 只 需要 常数 时 间 (这 
样 在 构造 符号 表 时 有 序 地 使 用 put() 插入 键 值 对 就 只 需要 线性 时 间 了 ) 

测试 用 例 。 编 写 一 段 测试 代码 TestBinarySearchjava 用 来 测试 正文 中 minO 、max() 、floor() 、 
ceiling()、select()、rank() ,deleteMin()、deleteMax() 和 keys() 的 实现 。 可 以 参考 3.1.3.1 
节 的 索引 用 例 ， 添 加 代码 使 其 在 适当 的 情况 下 接受 更 多 的 命令 行 参数 。 

验证 。 向 BinarySearchST 中 加 入 断言 ( assert ) 语句 ， 在 每 次 插入 和 删除 数据 后 检查 算法 的 有 
效 性 和 数据 结构 的 完整 性 。 例 如 ， 对 于 每 个 索引 必 有 i 一 rank(select(i)) 且 数 组 应 该 总 是 有 
序 的 。 


图 实验 亚 


3.1.31 


3.1.32 


3.1.33 


3.1.34 
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性 能 测试 。 编 写 一 段 性 能 测试 程序 ， 先 用 put() 构造 一 张 符号 表 ， 再 用 get() 进行 访问 ， 使 得 
表 中 的 每 个 键 平均 被 命中 10 次 ， 且 有 大 致 相同 次 数 的 未 命中 访问 。 键 为 长 度 从 2 到 50 不 等 的 
随机 字符 串 。 重 复 这 样 的 测试 若干 遍 ， 记 录 每 遍 的 运行 时 间 ， 打 印 平均 运行 时 间或 将 它们 绘制 
成 图 。 

练习 。 编 写 一 段 练习 程序 ， 用 困难 或 者 极端 的 但 在 实际 应 用 中 可 能 出 现 的 情况 来 测试 我 们 的 有 
序 符号 表 API。 一 些 简单 的 例子 包括 有 序 的 键 列 、 逆 序 的 键 列 、 所 有 键 全 部 相同 或 者 只 含有 两 种 
不 同 的 值 。 

自 组 织 查找 。 编 写 一 段 程序 调用 自 组 织 查找 的 实现 ( 请 见 练习 3.1.22 ) ， 用 putQ 〇 构造 一 个 大 
小 为 N 的 符号 表 ， 然 后 根据 预先 定义 好 的 概率 分 布 进行 10N 次 命中 查找 。 对 于 N=10*、10^、10; 
和 104， 用 这 段 程序 比较 你 在 练习 3.1.22 中 的 实现 和 BinarySearchST 的 运行 时 间 ， 在 预定 义 的 
概率 分 布 中 查找 命中 第 i 小 的 键 的 概率 为 1/2'。 
Zipf 法 则 。 用 命中 第 i 小 的 键 的 概率 为 1/(iH) 的 分 布 重新 完成 上 一 道 练习 ， 其 中 Hw 为 调和 级 数 
(请 见 表 1.4.6) 。 这 种 分 布 被 称 为 Zipf 法 则 。 比 较 前 移 编码 和 上 一 道 练习 中 的 在 特定 分 布下 的 
最 优 安排 ， 该 安排 将 所 有 键 按 升序 排列 ( 即 按照 它们 的 期 望 频率 的 降序 排列 ) 。 

性 能 验证 I。 用 各 种 不 同 的 N 运 行 双 们 测试 ， 取 《双城记 》 的 前 N 个 单词 ， 验 证 FrequencyCounter 
在 使 用 SequentialSearchST 时 所 需 的 运行 时 间 是 N 的 平方 级 别 的 猜想 。 

性 能 验证 II。 解释 FrequencyCounter 在 使 用 BinarySearchST 时 比 使 用 SequentialSearchST 时 
的 性 能 提高 程度 好 于 预期 的 原因 。 

put/get 的 比例 。 当 FrequencyCounter 使 用 BinarySearchST 在 100 万 个 长 度 为 M 位 的 随机 
整数 中 统计 每 个 值 的 出 现 频率 时 ， 根 据 经 验 判断 BinarySearchST 中 put() 操作 和 get() 操作 
的 耗 时 比 ， 其 中 M=10、20 和 30。 再 统计 tale.txt 并 评估 耗 时 比 ， 并 比较 两 次 的 结果 。 
均 捧 成 本 图 。 修 改 FrequencyCounter、SequentialSearchST 和 BinarySearchST; 统计 计算 中 


”每 次 putO 操作 的 成 本 并 生成 类 似 本 节 所 示 的 图 。 - 
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3.1.39 实际 耗 时 。 修 改 FrequencyCounter， 用 Stopwatch 和 StdDraw 其 中 x 轴 为 get() 和 
put 0 的 调用 次 数 之 和 , 轴 为 总 运行 时 间 ， 每 次 调用 时 就 根据 已 运行 时 间 画 一 个 点 。 分 别 用 
SequentialSearchST 和 BinarySearchsT 处 理 《 双 城 记 》 并 讨论 运行 的 结果 。 注 意 : 曲线 中 突 
然 的 跳跃 可 能 是 缓存 导致 的 ， 这 已 经 超出 了 这 个 问题 的 讨论 范围 。 

3.1.40 二 分 查找 的 临界 点 。 找 出 使 用 二 分 查找 比 顺序 查找 要 快 10 000 倍 和 1000 倍 的 值 。 分 析 并 预测 
N 的 大 小 并 通过 实验 验证 它 。 

3.1.41 插值 查找 的 临界 点 。 找 出 使 用 插值 查找 比 二 分 查找 要 快 1 倍 、2 倍 和 10 倍 的 N 值 ， 其 中 假设 所 
有 键 为 随机 的 32 位 整数 ( 请 见 练习 3.1.24 ) 。 分 析 并 预测 N 的 大 小 并 通过 实验 验证 它 。 B54] 
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3.2 二 叉 查 找 树 


在 本 节 中 我 们 将 学 习 一 种 能 够 将 链表 插入 的 灵活 性 和 有 序数 组 查找 的 高 效 性 结合 起 来 的 符号 表 
实现 。 具 体 来 说 ， 就 是 使 用 每 个 结 点 含有 两 个 链接 ( 链表 中 每 个 结 点 只 含有 一 个 链接 ) 的 二 叉 查找 
树 来 高 效 地 实现 符号 表 ， 这 也 是 计算 机 科学 中 最 重要 的 算法 之 一 。 

首先 ， 我 们 需要 定义 一 些 术语 。 我 们 所 使 用 的 数据 结构 由 
结 点 组 成 ， 结 点 包含 的 链接 可 以 指向 空 (nu11 ) 或 者 其 他 结 点 。 
在 二 又 树 中 ,每 个 结 点 只 能 有 一 个 父 结 点 指向 自己 ( 只 有 一 个 例 
外 ， 也 就 是 根 结 点 ， 它 没有 父 结 点 ) ， 而 且 每 个 结 点 都 只 有 左右 
两 个 链接 ， 分 别 指向 自己 的 左 子 结 点 和 右 子 结 点 ( 如 图 3.2.1 所 
示 ) 。 尽 管 链接 指向 的 是 结 点 ,但 我 们 可 以 将 每 个 链接 看 做 指向 ) 
了 另 一 棵 二 叉 树 ， 而 这 棵 树 的 根 结 点 就 是 被 指向 的 结 点 。 因 此 我 空 链接 
们 可 以 将 二 叉 树 定义 为 一 个 空 链接 ， 或 者 是 一 个 有 左右 两 个 链接 因 321 漳 角 二 吉村 
的 结 点 ， 每 个 链接 都 指向 一 棵 ( 独立 的 ) 子 二 又 树 。 在 二 又 查 - E 
找 树 中 ， 每 个 结 点 还 包含 了 一 个 键 和 一 个 值 ， 键 之 间 也 有 顺序 之 分 以 支持 高 效 的 查找 。 





定义 。 一 哥 二 又 查找 树 (BST) 是 一 要 二 又 桂 ， pea 
及 相关 联 的 值 ) 且 每 个 结 点 的 键 痢 大 于 其 左 子 树 中 的 任意 结 点 的 键 而 小 于 右 子 树 的 任意 结 
的 键 。 





我 们 在 画 出 二 叉 查 找 树 时 会 将 键 写 在 结 点 上 。 我 们 使 用 

“A 是 EE 的 左 子 结 点 ”的 说 法 用 键 指 代 结 点 。 我 们 用 连接 

结 点 的 线 表示 链接 ， 并 将 键 对 应 的 值 写 在 结 点 旁边 ( 若 值 不 
确定 则 省 略 ) 。 除 了 空 结 点 只 表示 为 向 下 的 一 条 线段 以 外 ， 

每 个 结 点 的 链接 都 指向 它 下 方 的 结 点 。 和 以 前 一 样 ， 我 们 在 7 te 

395| ”例子 中 只 会 使 用 索引 测试 用 例 生成 的 单个 字母 作为 键 ， 如 图 。 。 比 E 小 的 键 比 E 大 的 键 
396| 3.2.2 所 示 。 图 3.2.2 详解 二 又 查找 树 


3.2.1 基本 实现 

算法 33 定义 了 二 又 查找 树 (BST ) 的 数据 结构 ， 我 们 会 在 本 节 中 用 它 实现 有 序 符号 表 的 
API。 首 先 我 们 要 研究 一 下 这 个 经 典 的 数据 类 型 ， 以 及 与 它 的 特点 紧密 相关 的 get() ( 查找) 和 
put() (插入 ) 方法 的 实现 。 
3.2.1.1 数据 表示 

和 链表 一 样 ， 我 们 嵌 套 定义 了 一 个 私有 类 来 表示 二 叉 查 找 树 上 的 一 个 结 点 。 每 个 结 点 都 含有 一 
个 键 、 一 个 值 、 一 条 左 链接 、 一 条 右 链 接 和 一 个 结 点 计数 器 ( 有 需要 时 我 们 会 在 图 中 将 结 点 计数 器 
的 值 写 在 结 点 上 方 ) 。 左 链接 指向 一 标 由 小 于 该 结 点 的 所 有 键 组 成 的 二 叉 查找 树 ， 右 链接 指向 一 棵 
由 大 于 该 结 点 的 所 有 键 组 成 的 二 又 查找 树 。 变 量 N 给 出 了 以 该 结 点 为 根 的 子 树 的 结 点 总 数 。 你 将 会 
看 到 ， 它 简化 了 许多 有 序 符号 表 的 操作 的 实现 。 算 法 3.3 中 实现 的 私有 方法 size() 会 将 空 链接 的 
值 当 作 0， 这 样 我 们 就 能 保证 以 下 公式 对 于 二 叉 树 中 的 任意 结 点 x 总 是 成 立 。 


size(x) = size(x. left) + sizeCx.right) + 1 
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一 哥 二 叉 查 找 树 代表 了 一 组 刍 ( 及 其 相应 的 什 ) 的 集合 ， 而 同 。 结 吉 记 数 吕 的 从 N 。 和 
一 个 集合 可 以 用 多 标 不 同 的 二 叉 查找 树 表示 ( 如 图 3.2.3 所 示 ) 。 如 6 ne 
果 我 们 将 一 棵 三 又 查找 树 的 所 有 键 投影 到 一 条 直线 上 ， 保 证 一 个 结 。 (和 了 > 一 太 ， 
点 的 左 子 树 中 的 键 出 现在 它 的 左边 , 右 子 树 中 的 键 出 现在 它 的 右边 ， DO! QE!)! 
那么 我 们 一定 可 以 得 到 一 条 有 序 的 键 列 。 我 们 会 利用 二 叉 查 找 树 的 Up 
这 种 天 生 的 灵活 性 ， 用 多 棵 二 又 查找 树 表示 同一 组 有 序 的 键 来 实现 ” 人 书市 民 a 


构建 和 使 用 二 又 查找 树 的 高 效 算法 。 
3.2.1.2 查找 

一 般 来 说 ， 在 符号 表 中 查找 一 个 键 可 能 得 到 两 种 结果 。 如 果 合 
有 该 键 的 结 点 存在 于 表 中 ,我 们 的 查 接 就 命中 了 ,然后 返回 相应 的 值 。 
否则 查找 未 命中 (并 返回 nu11 ) 。 根据 数据 表示 的 递归 结构 我 们 马 
上 就 能 得 到 ， 在 二 叉 查 找 树 中 查找 一 个 键 的 递归 算法 :如 果树 是 
的 ， 则 查找 未 命中 ; 如 果 被 查找 的 键 和 根 结 点 的 键 相等 ,查找 命中 
否则 我 们 就 ( 递归 地 ) 在 适当 的 于 树 中 继续 查找 。 如 果 被 查找 的 键 
较 小 就 选择 左 子 树 ， 较 大 则 选择 右 子 树 。 算 法 3.3 ( 续 1 ) 中 递归 的 和风 玉生 
get0 方法 完全 实现 了 这 段 算法 。 它 的 第 一 个 参数 是 一 个 结 点 (于 树 的 根 结 点 )， 第 二 个 参数 是 
被 查找 的 键 。 代 码 会 保证 只 有 该 结 点 所 表示 的 子 树 才 会 含有 和 被 查找 的 键 相等 的 结 点 。 和 二 分 查 
。 找 中 每 次 从 代 之 后 查找 的 区 间 就 会 碱 半 一 样 ， 在 二 叉 查 找 树 中 ， 随 着 我 们 不 断 向 下 查找 ， 当 前 结 
点 所 表示 的 子 树 的 大 小 也 在 减 小 ( 理想 情况 下 是 减 半 ， 但 至 少 会 有 一 个 结 点 ) 。 当 找到 一 个 含有 
被 查找 的 键 的 结 点 〔 命中 ) 或 者 当前 子 树 变 为 空 ( 未 命中 ) 时 这 个 过 程 才 会 结束 。 从 根 结 点 开始 ， 
在 每 个 结 点 中 查找 的 进程 都 会 递归 地 在 它 的 一 个 子 结 点 上 展开 ， 因 此 一 次 查找 也 就 定义 了 树 的 一 
条 路径 。 对 于 命中 的 查找 ， 路 径 在 含有 被 查找 的 键 的 结 点 处 结束 。 对 于 未 命中 的 查找 ， 路 径 的 终 
点 是 一 个 空 链接 ， 如 图 3.2.4 所 示 。 


查找 R， 命 中 查找 T， 未 命中 












R 小 于 S， 因 此 继续 
在 左 子 树 中 查找 th) T 比 Ss 大 ， 因 此 继 
黑色 的 结 点 有 可 能 续 在 右 子 树 中 查找 


和 被 查找 的 键 匹配 





Se 去世 
R 大 于 E， 因 此 继 匹配 /人 而 T 比 X 小 ， 因此 改 为 
续 在 右 子 树 中 查找 广 在 左 子 树 中 查找 
- i 链接 为 空 ， 因 此 T 不 
x - 在 树 中 (未 命中 ) 


汶 aT (全 ， 
用 各 入、 到 加 相 应 的 人 y 


图 32.4 二 又 查 找 树 中 的 查找 命中 ( 左 ) 和 未 命中 ( 右 ) 
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算法 3.3 ”基于 二 叉 查找 树 的 符号 表 





public class BST<Key extends Comparable<Key>, Value> 





* 

private Node root; // 二 又 查找 树 的 根 结 点 

private class Node 

{ 
private Key key; // 键 
private Value va LV 值 
private Node left, right; // 指向 于 树 的 链接 
private int N; // 以 该 结 点 为 根 的 子 树 中 的 结 吉 总 数 


public Node(Key key, Value val, int N) 
{ this.key = key; this.val = val; this.N = N; } 
} 
public int size() 
{ return size(root); } 
private int size(Node x) 
ft 
if (x == nul1) return 0; 
else return x.N; 
} 
public Value get(Key key) 
// 请 见 算法 33《( 续 1 ) 
public void put(Key key, Value val) 
// 请 见 算法 3.3 ( 续 1) 
// max()、min()、floor()、ceiling() 方 法 请 见 算 法 3.3( 续 2) 
// select()、rank( 〇 方法 请 见 算法 3.3 ( 续 3 ) 


// delete()、deleteMin()、deleteMax() 方 法 请 见 算法 3.3 ( 续 4) 
// keys() 方 法 请 见 算法 33( 续 5 ) 


} 


这 有 段 代码 用 二 叉 查 找 树 实现 了 有 序 符号 表 的 API， 树 由 Node 对 象 组 成 ， 每 个 对 象 都 含有 一 对 键 值 
两 条 链接 和 一 个 结 点 计数 器 N。 每 个 Node 对 象 都 是 一 棵 含有 N 个 结 点 的 子 树 的 根 结 点 ， 它 的 左 链接 指向 
一 棵 由 小 于 该 结 点 的 所 有 键 组 成 的 二 叉 查找 树 ， 右 链接 指向 一 棵 由 大 于 该 结 点 的 所 有 键 组 成 的 二 又 查找 
树 。root 变量 指向 二 又 查找 树 的 根 结 点 Node 对 象 ( 这 棵 树 包含 了 符号 表 中 的 所 有 键 值 对 ) 。 本 节 会 陆 
续 给 出 其 他 方法 的 实现 。 





算法 3.3( 续 1 ) 的 实现 过 程 如 下 所 示 。 
-算法 3.3 ( 续 1) 二 叉 查找 树 的 查找 和 排序 方法 的 实现 





public Value get(Key key) 

{ return get(root, key); } 

private Value get(Node x, Key key) 

{ 1/ 在 惧 x 为 要 结 点 的 于 树 中 查找 并 返回 key 所 对 应 的 值 ; 
// 如 果 找 不 到 则 返回 nu11 
if (x == nu11) return null; 
int cmp = key.compareTo(x.key); 


if (cmp < 0) return get(x.left, key); 
else if (cmp > 0) return get(x.right, key); 
else return x.val; 

} 


public void put(Key key, Value val) 

{ // 查找 key， 找 到 则 更 新 它 的 值 ， 否 则 为 它 创建 一 个 新 的 结 点 
root = put(root, key, val); 

} 


private Node put(Node x, Key key, Value val) 
{ 
// 如 果 Kkey 存 在 于 以 X 为 根 结 点 的 子 树 中 则 更 新 它 的 值 ; 
// 否则 将 以 key 和 val 为 键 值 对 的 新 结 点 插入 到 该 子 树 中 
if (x == nu11) return new Node(key, val, 1); 
int cmp = key.compareTo(x.key); 
if (cmp < 0) x.left = put(x.left, 
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key, val); 


else if (cmp > 0) x.right = put(x.right, key, val); 


else x.val = val; 
Xx.N = size(x.left) + size(x.right) + 1; 
return xi 


} 


这 段 代 码 实现 了 有 序 符号 表 API 中 的 put() 和 getQ 方法 ,它们 的 递归 实现 也 是 本 章 稍 后 将 会 讨论 
的 其 他 几 种 实现 的 模板 。 每 个 方法 的 实现 既 可 以 看 做 是 实用 的 代码 ， 也 可 以 看 做 是 之 前 讨论 的 递 推 猜想 


的 证 明 。 





3.2.1.3 插入 

算法 3.3( 续 1) 中 的 查找 代码 几乎 和 二 分 查找 的 一 样 
简单 ， 这 种 简洁 性 是 二 叉 查 找 树 的 重要 特性 之 一 。 而 二 叉 查 
找 树 的 另 一 个 更 重要 的 特性 就 是 插 和 人 的 实现 难度 和 查找 差 不 
多 。 当 查找 一 个 不 存在 于 树 中 的 结 点 并 结束 于 一 条 空 链接 时 ， 
我 们 需要 做 的 就 是 将 链接 指向 一 个 含有 被 查找 的 键 的 新 结 点 
( 详 见 图 3.2.5) 。 算 法 3.3 ( 续 1) 中 递归 的 putQ 方法 的 
实现 逻辑 和 递归 查找 很 相似 : 如 果树 是 空 的 ， 就 返回 一 个 含 
有 该 键 值 对 的 新 结 点 ; 如 果 被 查找 的 键 小 于 根 结 点 的 键 ， 我 
们 会 继续 在 左 子 树 中 插入 该 键 ， 否 则 在 右 子 树 中 插入 该 键 。 
3.2.1.4 递归 

这 些 递 归 实 现 值得 我 们 花 点 儿 时 间 去 理解 其 中 的 运行 
细节 。 可 以 将 递归 调用 前 的 代码 想象 成 沿 着 树 向 下 走 : 它 会 
将 给 定 的 键 和 每 个 结 点 的 键 相 比较 并 根据 结果 向 左 或 者 向 
右 移动 到 下 一 个 结 点 。 然 后 可 以 将 递归 调用 后 的 代码 想象 成 
沿 着 树 向 上 把。 对 于 get 0 方法， 这 对 应 着 一 系列 的 返回 
指令 ( return ) ,但 是 对 于 putQ 方法 ， 这 意味 着 重 置 搜 
索 路 径 上 每 个 父 结 点 指向 子 结 点 的 链接 ， 并 增加 路 径 上 每 个 
结 点 中 的 计数 器 的 值 。 在 一 棵 简单 的 二 叉 查找 树 中 ， 唯 一 的 
新 链接 就 是 在 最 底层 指向 新 结 点 的 链接 ， 重 置 更 上 层 的 链接 


插入 L 9 





查找 L 的 操作 终 - 一 
止 于 这 条 链接 





创建 新 结 点 一 A 


10. 
8 = 一 一 个 

上 人 Sam 0 
’ 人 

~ AAS 

沿 搜索 路 径 向 上 一 / 
更 新 链接 并 增加 -< 

结 点 计数 器 的 值 


图 3.2.5 二 叉 查找 树 的 插入 操作 
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可 以 通过 比较 语句 来 避免 。 同 样 ， 我 们 只 需要 将 路 径 上 每 个 结 点 中 的 计数 器 的 值 加 1， 但 我 们 使 用 了 
更 加 通用 的 代码 ， 使 之 等 于 结 点 的 所 有 子 结 点 的 计数 器 之 和 加 1。 在 本 节 和 下 一 节 中 ， 我 们 会 学 习 一 
些 更 加 高 级 但 原理 相同 的 算法 ， 但 它们 在 搜索 路 径 上 需要 改变 的 链接 更 多 ， 也 需要 适应 性 更 强 的 代码 
来 更 新 结 点 计数 器 。 基 本 的 二 叉 查 找 树 的 实现 常常 是 非 递归 的 ( 请 见 练习 3.2.12 ) 一 一 我 们 在 实现 中 
使 用 了 递归 ， 一 来 是 为 了 便于 读者 理解 代码 的 工作 方式 ， 二 来 也 是 为 学 习 更 加 复杂 的 算法 做 准备 。 

图 3.2.6 是 对 我 们 的 标准 索引 用 例 轨迹 的 一 份 详细 的 研究 , 它 向 你 展示 了 二 叉 树 是 如 何 生长 的 。 
新 结 点 会 连接 到 树 底层 的 空 链接 上 , 树 的 其 他 部 分 则 不 会 改变 。 例如 ,第 一 个 被 插入 的 键 就 是 根 结 点 ， 
第 二 个 被 插入 的 键 是 根 结 点 的 两 个 子 结 点 之 一 ， 以 此 类 推 。 因 为 每 个 结 点 都 含有 两 个 链接 ， 树 会 逐 
渐 长 大 而 不 是 萎缩 .不仅 如 此 , 因为 只 有 查找 或 者 插入 路 径 上 的 结 点 才 会 被 访问 , 所 以 随 着 树 的 增长 ， 





401] 被 访问 的 结 点 数量 占 树 的 总 结 点 数 的 比例 也 会 不 断 的 降低 。 
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[402 图 3.2.6 使 用 二 又 查找 树 的 标准 索引 用 例 的 轨迹 
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3.2.2 分 析 最 好 情况 。 (8) 

使 用 二 叉 查 找 树 的 算法 的 运行 时 间 取决 于 树 的 形状 ， 而 
树 的 形状 又 取决 于 键 被 插入 的 先后 顺序 。 在 最 好 的 情况 下 ， 人 
一 棵 含有 N 个 结 点 的 树 是 完全 平衡 的 ， 每 条 空 链接 和 根 结 点 
的 距离 都 为 ~ lgN。 在 最 坏 的 情况 下 ， 搜 索 路 径 上 可 能 及 一 般 情况 
个 结 点 。 如 图 3.2.7 所 示 。 但 在 一 般 情况 下 树 的 形状 和 最 好 情 
况 更 接近 。 


对 于 很 多 应 用 来 说 ,图 3.2.8 所 示 的 简单 模型 都 是 适用 的 : 
我 们 假设 键 的 分 布 是 ( 均匀 ) 随机 的 ,或 者 说 它们 的 插入 顺 
序 是 随机 的 。 对 这 个 模型 的 分 析 而 言 ， 二 又 查找 树 和 快速 排 
序 几乎 就 是 “双胞胎 ”。 树 的 根 结 点 就 是 快速 排序 中 的 第 一 
个 切 分 元 素 ( 左 侧 的 键 都 比 它 小 ， 右 侧 的 键 都 比 它 大 ) ， 而 
这 对 于 所 有 的 子 树 同样 适用 ， 这 和 快速 排序 中 对 子 数组 的 递 
归 排 序 完全 对 应 。 这 使 我 们 能 够 分 析 得 到 二 叉 查 找 树 的 一 些 


性 质 。 图 3.2.7 二 叉 查找 树 的 可 能 形状 


最 坏 情况 





[ao3l 





& 成 未 是 值得 的 ， 因为 插入 -个 新 键 的 成 本 是 对 数 级 别 的 一 这 是 基于 二 分 查找 的 有 序数 组 所 不 具备 
的 灵活 性 ,- 因为 它 的 插入 操作 所 需 访问 数组 的 次 数 是 线性 级 别 的 。 和 快速 排 各 各 ， 比较 次 数 的 标 
准 差 很 小 ， 因此 起 大 这 个 公式 越 准 确 。 
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实验 EF 

我 们 的 随机 键 模型 和 典型 的 符号 表 使 用 情况 是 否 相符 ? 按照 惯例 ， 这 个 问题 的 答案 需要 具体 问 
题 具体 分 析 ， 因 为 在 不 同 的 应 用 场景 中 性 能 的 差别 可 能 很 大 。 幸 好 ,对 于 大 多 数 用 例 ， 这 个 模型 都 
能 很 好 地 适应 。 

。 作为 例子 ， 我 们 研究 用 FrequencyCounter 处 理 长 度 大 于 等 于 8 的 单词 时 put 0) 操作 的 成 本 。 
从 图 3.2.9 可 以 看 到 ， 每 次 操作 的 平均 成 本 从 BinarySearchST 的 484 次 数组 访问 降低 到 了 二 叉 查 
找 树 的 13 次 ， 这 也 再 次 验证 了 理论 模型 所 预测 的 对 数 级 别 的 性 能 。 根 据 命题 C 和 命题 D， 这 个 数 
值 的 合理 大 小 应 该 是 符号 表 大 小 的 自然 对 数 的 两 倍 左右， 因为 对 于 一 个 几乎 充满 的 符号 表 ， 大 多 数 
操作 都 是 查找 。 这 个 预测 至 少 有 以 下 不 准确 性 : 

口 很 多 操作 都 是 在 较 小 的 符号 表 中 进行 的 ; 

口 键 不 随机 ; 、 

口 符号 表 可 能 太 小 ， 近 似 值 2inN 不 准确 。 

无 论 如 何 , 通过 表 3.2.1 你 都 能 看 到 , 对 于 FrequencyCounter 这 个 预测 的 误差 只 有 若干 次 比较 。 
[04] 事实 上 ， 大 多 数 误差 都 能 通过 对 近似 值 的 数学 表达 式 的 改进 得 到 解释 ( 请 见 练习 3.2.35 ) 。 





图 3.2.8 -一 棵 典型 的 二 又 查找 树 ， 由 256 个 随机 键 组 成 


: 相 比 之 前 的 图 像 
20 /比例 尺 放大 250 售 








本 = 和 
0 操作 14 350 


图 3:2.9 使 用 二 又 查找 树 ， 运 行 java FrequencyCounter 8 < tale.txt 的 成 本 
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表 3.2.1 使 用 二 叉 查找 树 的 FrequencyCounter 的 每 次 put() 操作 平均 所 需 的 比较 次 数 













比较 次 数 
模型 预测 | 实际 次 数 
22.1 






单词 数 | 不 同 单词 数 







模型 预测 | 实际 次 数 








所 有 单词 135 635 21 1914 55 | 534 580 


Do 8 的 | 14350 

















4239597 | 299 593 21.4 





A 于 10| 4sez 






1610829 | 165 555 193 
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3.2.3 ”有 序 性 相关 的 方法 与 删除 操作 
二 叉 查找 树 得 以 广泛 应 用 的 一 个 重要 原因 就 是 它 能 够 保持 键 的 有 序 性 ， 因 此 它 可 以 作为 实现 有 
序 符号 表 API (请 见 3.1.2 节 ) 中 的 众多 方法 的 基础 。 这 使 得 符号 表 的 用 例 不 仅 能 够 通过 键 还 能 通 
过 键 的 相对 顺序 来 访问 键 值 对 。 下 面 ， 我 们 要 研究 有 序 符号 表 API 中 各 个 方法 的 实现 。 
3.2.3.1 最 大 键 和 最 小 键 
如 果 根 结 点 的 左 链接 为 空 ， 那 么 一 棵 二 叉 查找 Ne 
树 中 最 小 的 键 就 是 根 结 点 ; 如 果 左 链接 非 空 ， 那 么 
树 中 的 最 小 键 就 是 左 子 树 中 的 最 小 键 。 这 不 仅 描述 
了 算法 33 ( 续 2 ) 中 min(C) 方法 的 递归 实现 ， 同 时 
也 递 推 地 证 明了 它 能 够 在 二 又 查找 树 中 找到 最 小 的 人 人 oor(Q) 肖 
键 。 简 单 的 循环 也 能 等 价 实现 这 段 描述 ， 但 为 了 保 RE 内 
持 一 致 性 我 们 使 用 了 递归 。 我 们 可 以 让 递归 调用 返 和 
回 键 Key 而 非 结 点 对 象 Node， 但 我 们 后 面 还 会 用 到 
这 方法 来 找 出 含有 最 小 键 的 结 点 。 找 出 最 大 键 的 方 






G 小 于 $， 因 此 


法 也 是 类 似 的 ， 只 是 变 为 查找 右 子 树 而 已 人 
3.2.3.2 ”向 上 取 整 和 向 下 取 整 floor(G 可 
如 果 给 定 的 键 key 小 于 二 叉 查找 树 的 根 结 点 的 a 


键 ， 那 么 小 于 等 于 key 的 最 大 键 (floor ) 一 定 在 根 





结 点 的 左 子 树 中 ;如 果 给 定 的 键 key 大 于 二 叉 查 找 让 

树 的 根 结 点 ， 那 么 只 有 当 根 结 点 右 子 树 中 存在 小 于 i 

等 于 key 的 结 点 时 ， 小 于 等 于 key 的 最 大 键 才 会 出 能 找到 人 oorCG) 
现在 右 子 树 中 ， 香 则 根 结 点 就 是 小 于 等 于 key 的 最 es 
大 键 。 这 段 描述 说 明了 floor() 方法 的 递归 实现 ， -< a 


同时 也 递 推 地 证 明了 它 能 够 计算 出 预期 的 结果 。 将 y 县 4 果 了 
“ 左 ” 变 为 “ 右 ” ( 同时 将 小 于 变 为 大 于 ) 就 能 够 A 
得 到 ceiling0) 的 算法 。 向 上 取 整 函数 的 计算 如 图 
3.2.10 所 示 。 
3.2.3.3 选择 操作 

二 叉 查 找 树 中 的 选择 操作 和 2.5 节 中 我 们 学 习 过 的 基于 切 分 的 数组 选择 操作 类 似 。 我 们 在 二 又 
查找 树 的 每 个 结 点 中 维护 的 子 树 结 点 计数 器 变量 N 就 是 用 来 支持 此 操作 的 。 406 


图 3.2.10 计算 floorQ 函数 
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算法 3.3 ( 续 2) ”二 叉 查找 树 中 max 〇 )、min()、floor()、cei1ingO 方法 的 实现 





public Key min() 
党 
return min(root) .key; 
} 
private Node minCNode x) 
{ 
if (x.left == null) return x; 
return min(x.left); 
了 
public Key floor(Key key) 
{ 
Node x = floorCroot, key); 
if (x == nu11) return nu11; 
return x.key; 
和 
private Node floor(Node x, Key key) 
{ 
if (x == nul1) return null; 
int cmp = key.compareTo(x.key); 
if (cmp == 0) return xi 
if (cmp < 0) return floor(x.left, key); 
Node t = floor(x.right, key); 
if (Ct l= nul1) return ti 
else return xi 


其 

每 个 公有 方法 都 对 应 着 一 个 私有 方法 ， 它 接受 一 个 额外 的 链接 作为 参数 指向 某 个 结 点 ， 通 过 正文 
中 描述 的 递归 方法 查找 返回 nu11 或 者 含有 指定 Key 的 结 点 Node。max() 和 ceilingQ 的 实现 分 别 与 
minC) 和 floor() 方法 基本 相同 ， 只 是 将 代码 中 的 left 和 right (以 及 > 和 三 ) 调换 而 已 。 





假设 我 们 想 找到 排名 为 上 的 键 ( 即 树 中 正好 有 上 个 小 于 它 的 键 )。 如果 左 子 树 中 的 结 点 数 : 大 于 上 ， 
那么 我 们 就 继续 ( 递归 地 ) 在 左 子 树 中 查找 排名 为 上 的 键 ; 如 果 1 等 于 k, 我 们 就 返回 根 结 点 中 的 键 ; 
如 果 + 小 于 上 ,我 们 就 (递归 地 ) 在 右 子 树 中 查找 排名 为 (k-t-1 ) 的 键 。 和 刚才 一 样 ， 这 段 描述 既 
说 明了 select() 方法 的 递归 实现 同时 也 证 明了 它 的 正确 性 ， 此 过 程 如 图 3.2.11 所 示 。 
3.2.3.4 排名 

rank() 是 select() 的 逆 方 法 ， 它 会 返回 给 定 键 的 排名 。 它 的 实现 和 select() 类 似 : 如 果 给 
定 的 键 和 根 结 点 的 键 相等 ,我 们 返回 左 子 树 中 的 结 点 总 数 6 如 果 给 定 的 键 小 于 根 结 点 ， 我 们 会 返 
回 该 键 在 左 子 树 中 的 排名 ( 递归 计算 ) ; 如 果 给 定 的 键 大 于 根 结 点 ， 我 们 会 返回 #+1 ( 根 结 点 ) 加 
上 它 在 右 于 树 中 的 排名 ( 递归 计算 ) 。 

三 丸 查 找 树 中 选择 和 排名 操作 的 实现 如 算法 3.3 ( 续 3 ) 所 示 。 


算法 3.3( 续 3) 二 又 查找 树 中 select() 和 rank() 方法 的 实现 





public Key selectCint k) 

二 = 

return select(root, k).key; 

3 

private Node select(Node x, int k) 





人 ， // 返回 排名 为 K 的 结 点 
if (x 一 Null) return null; 
int t = size(x. left); 
if (t > Kk) return select(x.left, 


1; 
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else if (t < k) return select(x.right, k-t-1); 


else return x; 

} 

public int rank(Key key) 

{ return rank(key, root); } 

private int rankCKey key, Node x) - 

全 AL 返回 以 x 为 根 结 点 的 子 树 中 小 于 X ,Key 的 键 的 数量 …… 
if: (x.== nul1) return 0; 9 
int ‘cmp = key.compareTo(x.key); 
if (cmp < 0) return rank(key，x.left); 


else if. (cmp > 0] return 1 + size(x.1left) + rank(key, x.right); 


else return size(x. left); 


} 


这 段 代码 使 用 了 和 我 们 已 经 在 本 章 中 学 习 过 的 其 他 实现 中 一 样 的 递归 模式 实现 了 select() 和 


rankO) 方法 。 它 依赖 于 本 节 开始 处 给 出 的 size() 方法 来 统计 每 个 结 点 以 下 的 子 结 点 总 数 。“ 





.3.2.3.5 .删除 最 大 键 和 删除 最 小 键 
二 叉 查 找 树 中 最 难 实现 的 方法 就 是 delete() 
:方法 ， 即 从 符号 表 中 删除 一 个 键 值 对 。 作 为 热身 运 - 
， 动 ， 我 们 先 考虑 deleteMin0 方法 ( 删除 最 小 键 
所 对 应 的 键 值 对 ) ,如 图 3.2:12 所 示 。 和 put 一 : 
样 ， 我 们 的 递归 方法 接受 一 个 指向 结 点 的 链接 , 并 - 
返回 一 个 指向 结 点 的 链接 。 这 样 我 们 就 能 够 方便 地 
改变 树 的 结构 , 将 返回 的 链接 赋 给 作为 参数 的 链接 。 
对 于 deleteMin()， 我 们 要 不 断 深入 根 结 点 的 左 子 
树 中 直至 遇见 一 个 空 链接 ， 然 后 将 指向 该 结 点 的 链 
接 指向 该 结 点 的 右 子 树 ( 只 需要 在 递归 调用 中 返回 
它 的 右 链接 即 可 ) 。 此 时 已 经 没有 任何 链接 指向 要 
被 删除 的 结 点 ， 因 此 它 会 被 垃圾 收集 器 清理 掉 。 我 
们 给 出 的 标准 递归 代码 在 删除 结 点 后 会 正确 地 设置 … 
它 的 父 结 点 的 链接 并 更 新 它 到 根 结 点 的 路 径 上 的 所 
- 有 结 点 的 计数 器 的 值 ; deleteMax() 方法 的 实现 和 
deleteMin() 完全 类 似 。 
3.2.3.6 删除 操作 
我 们 可 以 用 类 似 的 方式 删除 任意 只 有 一 个 子 结 
点 《或 者 没有 子 结 点 :) 的 结 点 ， 但 应 该 怎样 删除 一 
个 拥有 两 个 子 结 点 的 结 点 呢 ? 删除 之 后 我 们 要 处 理 
两 棵 子 树 ,但 被 删除 结 点 的 父 结 点 只 有 一 条 空 出 来 
的 链接 。T. Hibbard 在 1962 年 提出 了 解决 这 个 难题 
的 第 一 个 方法 , 在 删除 结 点 x 后 用 它 的 后 继 结 点 填 


” 计算 select(3)， 本 
即 找 出 排名 为 3 的 键 


结 点 计 
数 器 N 人 Be 3 


左 子 树 中 共有 8 个 结 . 
1 点， 因此 继续 在 左 子 
”′ ” 树 中 查找 排名 为 3 的 键 ”- 





左 子 树 中 共有 2 个 结 点 ， 
因此 继续 在 右 子 树 中 查 
找 排名 为 3-2-1=0 的 | 


(0 左 子 树 中 共有 2 个 结 点 ， 


总 因此 继续 在 左 子 树 中 搜 
“ 索 排名 为 0 的 刍 


















汉江 


友子 树 中 共有 0 个 结 点 
且 正 在 查找 排名 为 0 的 


。 键 ， 因 此 返回 H 


3.2.11 二 又 查找 树 中 的 select() 操作 
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补 它 的 位 置 。 因 为 x 有 一 个 右 子 结 点 ， 因 此 它 的 后 继 结 点 就 是 其 右 子 树 中 的 最 小 结 点 。 这 样 的 替换 
仍然 能 够 保证 树 的 有 序 性 ， 因 为 x.key 和 它 的 后 继 结 点 的 键 之 间 不 存在 其 他 的 键 。 我 们 能 够 用 4 个 
简单 的 步 又 完成 将 x 替换 为 它 的 后 继 结 点 的 任务 ( 具体 过 程 如 图 3.2.13 所 示 ) : 
口 将 指向 即将 被 删除 的 结 点 的 链接 保存 为 t; 
口 将 x 指向 它 的 后 继 结 点 min(t.right); 一 
口 将 x 的 右 链接 (原本 指向 一 棵 所 有 结 点 都 大 于 x.key 的 二 叉 查 找 树 ) 指向 deleteMin(t. 
right)， 也 就 是 在 删除 后 所 有 结 点 仍然 都 大 于 x.key 的 子 二 叉 查 找 树 ; 
口 将 x 的 左 链 接 (本 为 空 ) 设 为 t.Teft ( 其 下 所 有 的 键 都 小 于 被 删除 的 结 点 和 它 的 后 继 
结 点 ) 。 


… 删除 键 E 
i 


不 断 检索 左 子 : - \ 
树 直至 遇见 空 t 
的 左 链接 VE 
X 
闪 






一 后 继 结 点 为 
-MN min(Ct.right) 
返回 读 结 。 先 取 右 子 桂 , 然 [7 
点 的 右 链接 后 再 不 断 检查 左 
A 子 树 ， 直 至 遇 到 
| - ” 空 的 左 链接 
XOX ts 
它 会 被 当做 tleft, delesel nCt.right) 
垃圾 回收 : C 
递归 调用 后 更 新 Se ( ; 
链接 和 结 点 计数 器 ， 
WOR 
‘ < SY 从 
在 冲 归 调用 后 
更 新 链接 和 结 
点 计数 器 
_ 图 3.2.12 删除 二 又 查找 树 中 的 最 小 结 点 图 3.2.13 二 叉 查 找 树 中 的 删除 操作 


在 递归 调用 后 我 们 会 修正 被 删除 的 结 点 的 父 结 点 的 链接 ， 并 将 由 此 结 点 到 根 结 点 的 路 径 上 的 所 
有 结 点 的 计数 器 减 1 ( 这 里 计数 器 的 值 仍然 会 被 设 为 其 所 有 子 树 中 的 结 点 总 数 加 一 ) 。 尽 管 这 种 方 
法 能 够 正确 地 删除 一 个 结 点 ， 它 的 一 个 缺陷 是 可 能 会 在 某 些 实际 应 用 中 产生 性 能 问题 。 这 个 问题 在 
于 选用 后 继 结 点 是 一 个 随意 的 决定 ， 且 没有 考虑 树 的 对 称 性 。 可 以 使 用 它 的 前 继 结 点 吗 ? 实际 上 ， 
前 继 结 点 和 后 继 结 点 的 选择 应 该 是 随机 的 。 详 细 讨论 请 见 练习 3.2.42。 
三 又 查找 树 中 删除 操作 的 实现 如 算法 3.3( 续 4) 所 示 。 
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算法 3.3 〈 续 4) 二 叉 查找 树 的 delete( 方法 的 实现 


public void deleteMinO 
{ 





root = deleteMin(root); 
六 


private Node deleteMin(Node x) 


if (x.left == nu11) return x.right; 
x.left = deleteMin(x.1left); 
XN = size(x.left) + size(x.right) + 3 
return xi : 

} “ 局 

public void delete(Key key) 

"root = delete(root, key); - } 

private Node delete(Node x, Key key) 
if (x == nu11) return nu11; 
int cmp = key.compareTo(x.key); 


if (cmp < 0) x.left = delete(x.left, key); 
else if (cmp > 0) x.right ~ delete(x.right, key); 


else 
if (Xright == nu11) return x.left; 

if (x.left 一 nul1) return x.right; 

Node t = x; 
-x = min(t.right); 、// 请 见 算法 3.3 ( 续 2 》 

x.right = deleteMin(t.right); 
"Xleft = t.left; 
} 

XN = size(x. 1efe) + Size(x. 人 + 工 ; 
return Xi :~ A 


} Fs 

如 前 文 所 述 ， 这 段 代码 实现 了 Hibbard 的 二 叉 查 找 树 中 对 结 点 的 即时 删除 。delete() 方法 的 代码 
很 简洁 ， 但 不 简单 。 也 许 理解 它 的 最 好 办 法 就 是 读 懂 正文 中 的 讲解 ， 试 着 自己 实现 它 并 对 比 自己 的 代码 
和 这 段 代码 。 一 般 情况 下 这 段 代码 的 效率 不 错 ， 但 对 于 大 规模 的 应 用 来 说 可 能 会 有 一 点 问题 .( 请 见 练习 
3.2.42 ) 。deleteMax() 的 实现 和 deleteMin() 类 似 ， 只 需 将 左 改 为 右 即 可 。 





3.2.3.7 ”范围 查找 
要 实现 能 够 返回 给 定 范围 内 键 的 keys( 方法 ;我们 首先 需要 一 个 遍历 二 又 查找 树 的 基本 方法 ， 

叫做 中 序 记 历 。 要 说 明 这 个 方法 ,我 们 先 看 看 如 何 能 够 将 二 又 查找 树 中 的 所 有 键 按照 顺序 打印 出 来 。 

要 做 到 这 一 点 ， 我 们 应 该 先 打印 出 根 结 点 的 左 子 树 中 的 

所 有 键 (根据 二 叉 查 找 树 的 定义 它们 应 该 都 小 于 根 结 点 。 Rate vod prode 2x) 


的 键 】， 然 后 打印 出 根 结 点 的 键 , 最 后 打印 出 根 结 点 的 1 return; 
i print(x. ; 

右 子 树 中 的 所 有 键 ( 根据 二 叉 查 找 树 的 定义 它们 应 该 都 Se 

大 于 根 结 点 的 键 ) ， 如 右 侧 的 代码 所 示 。 print(x.right); 


和 以 前 一 样 ， 刚才 的 描述 也 递 推 地 证 明了 这 自 上 


代码 能 够 顺序 打印 树 中 的 所 有 键 。 为 了 实现 接受 两 按 师 序 打印 一 又 查找 树 中 的 所 有 刍 . 
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个 参数 并 能 够 将 给 定 范围 内 的 键 返 回 给 用 例 的 keys 0) 方法 ， 我 们 可 以 修改 一 下 这 段 代码 ， 将 
所 有 落 在 给 定 范围 以 内 的 键 加 入 一 个 队列 Queue 并 跳 过 那些 不 可 能 含有 所 查找 键 的 于 树 。 和 
BinarySearchST 一 样 ， 用 例 不 需要 知道 我 们 使 用 Queue 来 收集 符合 条 件 的 键 。 我 们 使 用 什么 数 


据 结构 来 实现 Iterable<Key> 并 不 重要 ， 用 例 只 要 能 够 使 用 Java 的 foreach 语句 遍历 返回 的 所 
有 键 就 可 以 了 。 


二 叉 查找 树 的 范围 查找 操作 的 实现 如 算法 33 ( 续 5 ) 所 示 。 
算法 3.3( 续 5) ”二 叉 查找 树 的 范围 查找 操作 


public Iterable<Key> keysO) 
{ return keys(min(O), max());  } 











public Iterable<Key> keys(Key lo, Key hi) 
{ 
Queue<Key> queue = new Queue<Key>(); 
keys(root, queue, lo, hi); 
return queue; 


} 


private void keys(Node x, Queue<Key> queue, Key 10, Key hi) 
{ 

if (x == nu1D) return; 

int cmplo = 10.compareTo(x.key); 

int cmphi ~ hi.compareTolx.key); 

if (cmplo < 0) keys(x.1left, queue, 10, hi); 

if (cmplo <= 0 && cmphi >= 0) queue.enqueueCx.key); 

if (cmphi > 0) keys(x.right, queue, 10, hi); 
} 


为 了 确保 以 给 定 结 点 为 根 的 子 树 中 所 有 在 指定 范围 之 内 的 键 加 入 队列 ， 我 们 会 (递归 地 ) 查找 根 结 
点 的 左 子 树 ， 然 后 查找 根 结 点 ， 然 后 〈 递归 地 ) 查找 根 结 点 的 右 子 树 。 


在 [F.… 们 之 间 进 行 查找 


会 比较 黑色 加 粗 的 键 但 它 
们 并 不 在 查找 范围 之 内 





@ Yp) 1 黑色 的 是 落 在 查 
找 范围 之 内 的 键 二 


二 叉 查找 树 的 范围 查找 





3.2.3.8 ”性 能 分 析 了 
二 又 查找 千 中 和 有 序 性 相关 的 操作 的 效率 如 何 ? 要 研究 这 个 问题 ,我 们 首先 要 知道 树 的 高 度 ( 即 


树 中 任意 结 点 的 最 大 深度 ) 。 给 定 一 棵 树 ， 树 的 高 度 决定 了 所 有 操作 在 最 坏 情况 下 的 性 能 ( 范围 查 
找 除外 ,因为 它 的 额外 成 本 和 返回 的 键 的 数量 成 正比 ) - 





在 要 二 又 查找 村 中 ， 所 有 失 作 在 最 二 情况 下 所 项 的 时 间 痢 和 本 的 高 度 成 正比 
, 衬 的 所 有 操作 都 沼 着 衬 的 一 条 或 丙 打 落 征 行进。 根据 定义 ， 路 征 的 长 度 不 可 能 大 于 衬 的 





我 们 估计 树 的 高 度 ( 即 最 坏 情况 下 的 成 本 ) 将 会 大 于 我 们 在 3.2.2 节 中 定义 的 平均 内 部 路 径 
长 度 ( 这 个 平均 值 已 经 包含 了 所 有 较 短 的 路 径 ) ， 但 会 高 多 少 呢 ? 也 许 在 你 看 来 这 个 问题 和 命 
题 C 和 命题 D 解答 的 问题 类 似 ， 但 它 的 解答 其 实 要 困难 得 多 ， 完 全 超出 了 本 书 的 范畴 。1979 年 ， 
J Robson 证 明了 随机 键 构造 的 二 叉 查 找 树 的 平均 高 度 为 树 中 结 点 数 的 对 数 级 别 ， 随 后 L. Devroye 证 
明了 对 于 足够 大 的 N， 这 个 值 趋 近 于 2.99lgN。 因此 ， 如 果 我 们 的 应 用 中 的 插入 操作 能 够 适用 于 这 
个 随机 模型 ， 我 们 距离 实现 一 个 支持 对 数 级 别 的 所 有 操作 的 符号 表 的 目标 就 已 经 不 远 了 。 我 们 可 以 
认为 随机 构造 的 树 中 的 所 有 路 径 长 度 都 小 于 3lgN， 但 如 果 构 造 树 的 键 不 是 随机 的 怎么 办 ? 在 下 一 节 


中 你 会 看 到 在 实际 应 用 中 这 个 问题 其 实 没 有 意义 ， 因 为 还 有 平衡 二 又 查找 树 ， 它 能 保证 无 论 键 的 插 


入 顺序 如 何 ， 树 的 高 度 都 将 是 总 键 数 的 对 数 。- 

总 的 来 说 ， 二 叉 查 找 树 的 实现 并 不 困难 ， 且 当 树 的 构造 和 随机 模型 近似 时 在 各 种 实际 应 用 场景 
中 它 都 能 进行 快速 地 查找 和 插入 。 对 于 我 们 的 例子 ( 以 及 其 他 许多 实际 应 用 场景 ) 来 说 ， 二 又 查找 
树 将 不 可 能 完成 的 任务 变 为 可 能 。 另 外 ,许多 程序 员 都 偏爱 基于 二 叉 查 找 树 的 符号 表 的 原因 是 它 还 


支持 高 效 的 rank() 、select() 、delete() 以 及 范围 查找 等 操作 。 但 同时 ， 正 如 我 们 所 强调 过 的 ，， 


在 某 些 场景 中 二 又 查找 树 在 最 坏 情况 下 的 恶劣 性 能 仍然 是 不 可 接受 的 。 二 又 查找 树 的 基本 实现 的 良 
好 性 能 依赖 于 其 中 的 键 的 分 布 足够 随机 以 消除 长 路 径 。 对 于 快速 排序 ， 我 们 可 以 先 将 数组 打 乱 ; 而 
对 于 符号 表 的 API， 我 们 无 能 为 力 ， 因 为 符号 表 的 用 例 控制 着 各 种 操作 的 先后 顺序 。 但 最 坏 情况 在 
实际 应 用 也 有 可 能 出 现 一 一 用 例 将 所 有 键 按照 顺序 或 者 逆序 插入 符 号 表 就 会 增加 这 种 情况 出 现 的 概 
率 ， 而 在 没有 明确 的 警告 来 避免 这 种 行为 时 有 些 用 例 肯 定 会 尝试 这 么 做 。 这 就 是 我 们 寻找 更 好 的 算 
法 和 数据 结构 的 主要 原因 ， 这 些 算法 和 数据 结构 我 们 会 在 下 一 节 学 习 。 

本 书 中 简单 的 符号 表 实现 的 成 本 列 在 表 3.22 中 。 


表 3.2.2 简单 的 符号 表 实 现 的 成 本 总 结 











最 坏 情况 下 的 运行 时 间 的 增长 数量 级 平均 情况 下 的 运行 时 间 的 增长 数量 级 
算法 数据 结构 ) (N 次 插入 之 后 ) (N 次 插入 随机 键 之 后 ) 人 
| 查 - 找 插 ”入 ”| 。 查找 命中 播 入 
i (无 序 链 | 和 | N | N2 N 否 
Bs ee 1 | | ev a 是 











二 又 树 查找 (二 又 
查找 树 ) N N 139lgN 1.39lgN 是 





间 ”我 见 过 二 又 查找 树 ， 但 它 的 实现 没有 使 用 递归 。 这 两 种 方式 各 有 哪些 优 缺点 ? 
答 一 般 来 说 ， 递 归 的 实现 更 容易 验证 其 正确 性 ， 而 非 递归 的 实现 效率 更 高 。 在 练习 3.2.13 中 你 需要 用 
另 一 种 方法 实现 get()， 你 可 能 会 注意 到 性 能 上 的 改进 。 如 果树 不 是 平衡 的 ， 函 数 调用 的 栈 的 深度 
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可 能 会 成 为 递归 实现 的 一 个 问题 。 我 们 使 用 递归 的 一 个 主要 原因 是 使 读者 能 够 轻松 过 滤 到 下 一 节 中 
的 平衡 二 又 查找 树 ， 而 且 递归 版 本 显然 更 易于 实现 和 调试 。 

维护 Node 对 象 中 的 结 点 计数 器 似乎 需要 很 多 代码 ， 这 有 必要 吗 ? 为 什么 不 只 用 一 个 变量 来 保存 整 棵 
树 中 的 结 点 总 数 来 实现 用 例 中 的 size() 方法 ? 

rank(C) 和 selectQ 〇 方法 需要 知道 每 个 结 点 所 代表 的 子 树 中 的 结 点 总 数 。 如 果 你 不 需要 实现 这 些 操 
作 ， 可 以 去 掉 这 个 变量 以 简化 代码 ( 请 见 练习 3.2.12 ) 。 要 保证 所 有 结 点 中 的 计数 器 的 正确 性 的 确 
很 容易 出 错 ， 但 这 个 值 在 调试 中 同样 有 用 。 你 也 可 以 用 递归 的 方法 实现 用 例 中 的 size() 函数 ,但 这 
样 统计 所 有 结 点 的 运行 时 间 可 能 是 线性 的 。 这 十 分 危险 ， 因 为 如 果 不 知道 这 么 一 个 简单 的 操作 会 如 
此 耗 时 ， 用 例 的 性 能 可 能 会 变 得 很 差 。 


3.2.1 将 EA 5Y QUE STI0N 作 为 键 按 顺序 插入 一 棵 初始 为 空 的 二 叉 查找 树 中 Wp 





1 个 键 对 应 的 值 为 1 ) ， 画 出 生成 的 二 叉 查 找 树 。 构 造 这 棵 树 需 要 多 少 次 比较 ? 


3.2.2 将 A X 5 S E R H 作 为 键 按 顺序 插入 将 会 构造 出 一 棵 最 坏 情况 下 的 二 叉 查找 树 结构 ， 最 下 方 的 结 


点 的 两 个 链接 全 部 为 空 ， 其 他 结 点 都 含有 一 个 空 链接 。 用 这 些 键 给 出 构造 最 坏 情况 下 的 树 的 其 他 
5 种 排列 。 


3.2.3 给 出 A X C S E R H 的 5 种 能 够 构造 出 最 优 二 叉 查 找 树 的 排列 。 
3.2.4 ”假设 某 棵 二 叉 查找 树 的 所 有 键 均 为 1 至 10 的 整数 ， 而 我 们 要 查找 5。 那 么 以 下 哪个 不 可 能 是 键 的 


检查 序列 ? 

a. 10, 9, 8, 7, 6, 5 

b. 4, 10, 8, 7, 5, 3 

c.1, 10, 2, 9, 3, 8,4, 7, 6, 5 
d.2,7,3,8,4,5 
6.1,2,10,4,8,5 


3.2.5 ”假设 已 知 某 棵 二 叉 查找 树 中 的 每 个 结 点 的 查找 频率 ， 且 我 们 可 以 以 任意 顺序 用 它们 构造 -- 棵 树 。 


我 们 是 应 该 按照 查找 频率 的 顺序 由 高 到 低 或 是 由 低 到 高 将 它们 插入 ， 还 是 用 其 他 某 种 顺序 ? 证 明 
你 的 结论 。 


3.2.6 为 二 叉 查找 树 添加 一 个 方法 height0) 来 计算 树 的 高 度 。 实 现 两 种 方案 : 一 种 使 用 递归 ( 用 时 为 


线性 级 别 ， 所 需 空间 和 树 高 成 正比 ) ， 一 种 模仿 size() 在 每 个 结 点 中 添加 一 个 变量 ( 所 需 空间 
为 线性 级 别 ， 查 询 耗 时 为 常数 ) 。 


3.2.7 为 二 又 查找 树 添加 一 个 方法 avgCompares() 来 计算 一 棵 给 定 的 树 中 的 一 次 随机 命中 查找 平均 所 需 


的 比较 次 数 ( 即 树 的 内 部 路 径 长 度 除 以 树 的 大 小 再 加 1 ) 。 实 现 两 种 方案 : 一 种 使 用 递归 (用 时 
为 线性 级 别 ， 所 需 空间 和 树 高 成 正比 ) ， 一 种 模仿 sizeQ 在 每 个 结 点 中 添加 一 个 变量 ( 所 需 空 
间 为 线性 级 别 ， 查 询 耗 时 为 常数 ) 。 写 


3.2.8 编写 一 个 静态 方法 optCompares() ， 接 受 一 个 整 型 参数 N 并 计算 一 棵 最 优 ( 完美 平衡 的 ) 二 又 查 


找 树 中 的 一 次 随机 查找 命中 平均 所 需 的 比较 次 数 ， 如 果树 中 的 链接 数量 为 2 的 寡 ， 那 么 所 有 的 空 
链接 都 应 该 在 同一 层 ， 否 则 则 分 布 在 最 底部 的 两 层 中 。 


3.2.9 对 于 N=2、3、4、5 和 6， 画 出 用 入 个 键 可 能 构造 出 的 所 有 不 同形 状 的 二 叉 查 找 树 。 
3.2.10 编写 一 个 测试 用 例 TestBSTjava 来 测试 正文 中 minO、maxO、floor(O) 、ceilingO、 
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select()、rank()、delete()、deleteMin()、deleteMax() 和 keysO 方法 的 实现 。 可 以 参 
考 3.1.3.1 节 的 标准 索引 用 例 ， 使 它 接受 其 他 合适 的 命令 行 参数 。 
3.2.11 高 度 为 N 且 含有 NN 个 结 点 的 二 叉 树 能 有 多 少 种 形状 ? 使 用 入 个 不 同 的 键 能 有 多 少 种 不 同 的 方式 
构造 一 棵 高 度 为 N 的 二 叉 查找 树 ? ( 参考 练习 3.2.2 ) 
3.2.12 ”实现 一 种 二 又 查找 树 ， 含 弃 rank() 和 select() 方法 并 且 不 在 Node 对 象 中 使 用 计数 器 。 
3.2.13 ”为 二 又 查找 树 实现 非 递归 的 putC) 和 getOQ 〇 方法。 
部 分 解答 ， 以 下 是 get() 方法 的 实现 : 
public Value get(Key key) 
{ 
Node x = root; 
while Cx 1= nu11) 
{ 
int cmp = key.compareToCx.key); 
if (cmp == 0) return x.val; 
else if (cmp < 0) x = x.left; 
else if (cmp > 0) x = x.right; 
} 
return null; 
} 
put 0 的 实现 更 复杂 一 些 ， 因 为 它 需 要 保存 一 个 指向 底层 结 点 的 链接 ， 以 便 使 之 成 为 新 结 点 的 


父 结 点 。 你 还 需要 额外 遍历 一 遍 查 找 路 径 来 更 新 所 有 的 结 点 计数 器 以 保证 结 点 插入 的 正确 性 。 

因为 在 性 能 优先 的 实现 中 查找 的 次 数 比 插入 多 得 多 ， 有 必要 使 用 这 段 get() 代码 ， 而 相应 的 

putO 实现 则 无 关 紧要 。 Ey 
3.2.14 ”实现 非 递归 的 min() 、max() 、floor()、ceiling() 、rank() 和 select() 方法 。 

3.2.15 ”对 于 右 下 方 的 二 又 查找 树 ， 给 出 计算 下 列 方法 的 过 程 中 结 点 的 访问 序列 。 

a. floor("Q") 
select(5) 
ceiling("Q") 
rank("]") 
size("D", 

下 keys("D"， 
3.2.16 设 一 棵 树 的 外 部 路 径 长 度 为 从 根 结 点 到 空 链接 的 所 有 路 径 上 的 结 点 总 数 。 证 明 对 于 大 小 为 NN 的 

任意 二 叉 树 ， 其 外 部 路 径 长 度 和 内 部 路 径 长 度 之 差 为 2N ( 可 以 参考 命题 C) 

3.2.17 从 练习 3.2.1 构造 的 二 叉 查 找 树 中 将 所 有 键 按照 插入 顺序 逐个 删除 并 画 出 每 次 删除 所 得 到 的 树 。 
3.2.18 ”从 练习 3.2.1 构造 的 二 又 查找 树 中 将 所 有 键 按照 字母 顺序 逐个 删除 并 画 出 每 次 删除 所 得 到 的 树 。 
3.2.19 ”从 练习 3.2.1 构造 的 二 又 查找 树 中 逐次 删除 树 的 根 结 点 并 画 出 每 次 删除 所 得 到 的 树 。 

3.2.20 请 证 明 : 对 于 含有 N 个 结 点 的 二 叉 查找 树 ， 接 受 两 个 参数 的 size() 方法 所 需 的 运行 时 间 最 多 为 

树 高 的 倍数 加 上 查找 范围 内 的 键 的 数量 。 

3.2.21 为 二 又 查找 树 添加 一 个 randomKey() 方法 来 在 和 树 高 成 正比 的 时 间 内 从 符号 表 中 随机 返回 一 

个 键 。 

3.2.22 请 证 明 : 若 一 棵 二 叉 查找 树 中 的 一 个 结 点 有 两 个 子 结 点 那么 它 的 后 继 结 点 不 会 有 左 子 结 点 ， 

前 继 结 点 不 会 有 右 子 结 点 。 
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3.2.23 deleteO 方 法 符合 交换 律 四 ? ( 先 删 除 x 后 删除 y 和 先 删除 y 后 删除 x 能 够 得 到 相同 的 结果 吗 ? ) 
3.2.24 请 证 明 : 使 用 基于 比较 的 算法 构造 一 棵 二 又 查找 树 所 需 的 最 小 比较 次 数 为 lg(N!)~NlgN。 





3.2.25 完美 平衡 。 编写 一 段 程序 ， 用 一 组 键 构造 一 棵 和 二 分 查 找 等 价 的 二 叉 查找 树 。 也 就 是 说 ， 在 这 
棵 树 中 查找 任意 键 所 产生 的 比较 序列 和 在 这 组 键 中 使 用 二 分 查找 所 产生 的 比较 序列 完全 相同 。 

3.2.26 准确 的 概率 。 计 算 用 N 个 随机 的 互 不 相同 的 键 构造 出 练习 3.2.9 中 的 每 一 棵 树 的 概率 。 

3.2.27 内 存 使 用 基于 14 节 的 假设 ， 对 于 X 对 键 值 比较 二 又 查 找 树 和 BinarysearchsT 以 及 
SequentialSearchST 的 内 存 使 用 情况 。 不 需要 记录 键 值 本 身 占用 的 内 存 ， 只 统计 它们 的 引用 。 
用 图 精确 描述 一 棵 以 String 为 键 、Integer 为 值 的 二 叉 查找 树 ( 比如 FrequencyCounter 构造 
的 那 种 ) 的 内 存 使 用 情况 ， 然 后 估计 FrequencyCounter 在 使 用 二 叉 查 找 树 处 理 《 双 城 记 》 时 
树 的 内 存 使 用 情况 (精确 到 字 节 ) 。 

3.2.28 缓存 。 修 改 二 叉 查 找 树 的 实现 ， 将 最 近 访 问 的 结 点 Node 保存 在 一 个 变量 中 ,这 样 get 〇 或 
putQ 再 次 访问 同一 个 键 时 就 只 需要 常数 时 间 了 ( 参考 练习 3.1.25 ) 。 

3.2.29 二 又 树 检查 。 编 写 一 个 递归 的 方法 isBinaryTreeC) ， 接 受 一 个 结 点 Node 为 参数 。 如 果 以 该 结 
点 为 根 的 子 树 中 的 结 点 总 数 和 计数 器 的 值 N 相符 则 返回 true， 否 则 返回 false。 注 意 : 这 项 检 
查 也 能 保证 数据 结构 中 不 存在 环 ， 因 此 这 的 确 是 一 棵 二 叉 树 ! 

3.2.30 ”有 序 性 检查 。 编 写 一 个 递归 的 方法 isOrdered0 ,接受 一 个 结 点 Node 和 min、max 两 个 键 作为 参数 。 
如 果 以 该 结 点 为 根 的 子 树 中 的 所 有 结 点 都 在 min 和 max 之 间 ，min 和 max 的 确 分 别 是 树 中 的 最 
小 和 最 大 的 结 点 且 二 叉 查找 树 的 有 序 性 对 树 中 的 所 有 键 都 成 立 ， 返 回 true， 和 否则 返回 false。 

3.2.31 等 值 键 检 查 。 编 写 一 个 方法 hasNoDup1icates() ， 接 受 一 个 结 点 Node 为 参数 。 如 果 以 该 结 点 
为 根 的 二 又 查找 树 中 不 含有 等 值 的 键 则 返回 true， 否 则 返回 false。 假 设 树 已 经 通过 了 前 几 道 
练习 的 检查 。 

3.2.32 验证 。 编 写 一 个 方法 isBST() ， 接 受 一 个 结 点 Node 为 参数 。 若 该 结 点 是 一 个 二 叉 查找 树 的 根 结 
点 则 返回 true， 否 则 返回 false。 提 示 : 这 个 任务 比 看 起 来 要 困难 ， 它 和 你 调用 前 三 题 中 各 个 
方法 的 顺序 有 关 。 
解答 : 
private boolean isBSTO) 

: if (tisBinaryTree(root)) return false; 
if (!isOrdered(root, min(), maxO))) return false; 


if (!hasNoDuplicates(root)) return false; 
return true; 


3.2.33 选择 /排名 检查 。 编 写 一 个 方法 ， 对 于 0 到 sizeO-1 之 间 的 所 有 1i， 检 查 i 和 rank(Cselect(i)) 
是 否 相等 ， 并 检查 二 叉 查找 树 中 的 的 任意 键 key 和 select(rank(key)) 是 否 相等 。 

3.2.34 ”线性 符号 表 。 你 的 目标 是 实现 一 个 扩展 的 符号 表 ThreadST， 支 持 以 下 两 个 运行 时 间 为 常数 的 
操作 : 


Key next(Key key)，key 的 下 一 个 键 ( 若 key 为 最 大 键 则 返回 空 ) 
Key prev(Key Key) ，key 的 上 一 个 键 ( 若 key 为 最 小 键 则 返回 空 ) 


3.2.35 


3.2.36 


3.2.37 


3.2.38 


要 做 到 这 一 点 需要 在 结 点 中 增加 pred 和 succ 两 个 变量 来 保存 结 点 的 前 继 和 后 继 结 点 ， 并 相应 
修改 put()、deleteMin() 、deleteMax() 和 deleteQ 方法 来 维护 这 两 个 变量 。 
改进 的 分 析 。 为 了 更 好 地 解释 正文 表格 中 的 试验 结果 请 改进 它 的 数学 模型 。 证 明 随 着 入 的 增 大 ， 
在 一 棵 随机 构造 的 二 叉 查找 树 中 ， 一 次 命中 查找 所 需 的 平均 比较 次 数 会 趋 近 于 limit(2InN)+2 y 
3=1.39lgMN-1.85， 其 中 Y=0.57721.…， 即 欧 拉 常 数 。 提 示 : 参考 23 节 中 对 快速 排序 的 分 析 ，1/x 
的 积分 趋 近 于 InN+ Y 。 3 

先 代 器 。 能 否 实现 一 个 非 递归 版 本 的 keys Q 方法 ， 其 使 用 的 额外 空间 和 树 的 高 度 成 正比 ( 和 查 
找 范围 内 的 键 的 多 少 无 关 ) ? 四 

按 层 遍历 。 编 写 一 个 方法 printLeve10C) ， 接 受 一 个 结 点 Node 作为 参数 ， 按 照 层级 顺序 打印 以 
该 结 点 为 根 的 子 树 ( 即 按 每 个 结 点 到 根 结 点 的 距离 的 顺序 ， 同 一 层 的 结 点 应 该 按 从 左 至 右 的 顺 
序 ) 。 提示: 使 用 队列 Queue。 

绘图 。 为 二 叉 查 找 树 添加 一 个 方法 draw() ， 按 照 正 文中 的 样式 将 树 绘制 出 来 。 提 示 :; 在 结 点 中 
用 变量 保存 坐标 并 用 递归 的 方法 设置 这 些 变量 。 


图 实验 是 ; 


3.2.39 


3.2.40 


3.2.41 


3.2.42 


3.2.43 


3.2.44 


平均 情况 。 用 经 验 数据 评估 在 一 棵 由 N 个 随机 结 点 构造 的 二 叉 查找 树 中 ， 一 次 命中 的 查找 和 未 命 
中 的 查找 平均 所 需 的 比较 次 数 的 平均 差 和 标准 差 ， 其 中 N=10'*、10 和 10'， 重 复 实验 100 遍 。 将 你 
的 实验 结果 和 练习 3.2.35 给 出 的 计算 平均 比较 次 数 的 公式 进行 对 比 。 

树 的 高 度 。 用 经 验 数 据 评估 一 棵 由 N 个 随机 结 点 构造 的 二 叉 查找 树 的 平均 高 度 ， 其 中 N=10'、 
10” 和 10， 重 复 实验 100 遍 。 将 你 的 试验 结果 和 正文 中 给 出 的 估计 值 299lgN 进行 对 比 。 

数组 表示 。 开 发 一 个 二 叉 查找 树 的 实现 ， 用 三 个 数组 表示 一 棵 树 ( 预先 分 配 为 构造 函数 中 所 指 
定 的 最 大 长 度 ) : 一 个 数组 用 来 保存 键 ， 一 个 数组 用 来 保存 左 链接 的 索引 ， 一 个 数组 用 来 保存 
右 链接 的 索引 。 比 较 你 的 程序 和 标准 实现 的 性 能 。 

Hibbard 删除 方法 的 性 能 问题 。 编 写 一 个 程序 ， 从 命令 行 接受 一 个 参数 入 并 构造 一 棵 
由 入 个 随机 键 生成 的 二 叉 查 找 树 ， 然 后 进入 一 个 循环 。 在 循环 中 它 先 删除 一 个 随机 键 
(delete(select(StdRandom.uniform(N))) ) ， 然 后 再 插入 一 个 随机 键 ， 如 此 循环 次。 
循环 结束 后 ， 计 算 并 打印 树 的 内 部 平均 路 径 长 度 ( 内 部 路 径 长 度 除 以 入 再 加 1) 。 对 于 N=10*、 
10? 和 104， 运 行 你 的 程序 来 验证 一 个 有 些 违反 直觉 的 假设 ; 这 个 过 程 会 增加 树 的 平均 路 径 长 度 ， 
增加 的 长 度 和 NE A Es 使 用 能 够 随机 选择 前 继 或 后 继 结 点 的 delete() 方法 重复 这 

个 实验 。 区 

putO/oetO 方法 的 比例 。 用 经 验 数 据 评估 当 使 用 FrequencyCounter 来 统计 100 万 个 随机 整 
数 中 每 个 数 的 出 现 频率 时 ， 二 又 查找 树 中 put() 方法 和 get() 方法 所 消耗 的 时 间 的 比例 。 
绘制 成 本 图 。 改 造 二 . 全 个 有 不 全 a put() 操作 成 
本 的 图 。 2 2 
实际 耗 时 。 改 造 En 使 用 Stopwatch 和 StdDraw 绘 图 ， 其 中 x 轴 表 示 get() 





和 putO 调用 的 总 数 ，》 轴 为 总 运行 时 间 ; 每 次 调用 之 后 即 在 当前 运行 时 间 处 绘制 一 个 点 。 使 用 


SequentialSearchST 和 你 的 程序 处 理 《 双 城 记 》， 再 用 BinarySearchST 处 理 一 遍 ， 最 后 用 二 


丸 查 找 树 处 理 一 遍 ， 人 . 注意 : 曲线 中 突然 的 跳跃 可 能 是 绥 存 导致 的 ， 这 已 
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3.2.46 二 又 查找 树 的 临界 点 。 使 用 随机 double 值 作为 键 ， 分 别 找 出 使 得 二 叉 查 找 树 的 符号 表 比 二 分 查 
找 要 快 10、100 倍 和 1000 倍 的 X 值 。 分 析 并 预测 N 的 大 小 并 通过 实验 验证 它 。 

3.2.47 平均 查找 耗 时 。 用 实验 研究 和 计算 在 一 棵 由 N 个 随机 结 点 构造 的 二 又 查找 树 中 到 达 任意 结 点 的 
平均 路 径 长 度 ( 内 部 路 径 长 度 除 以 N 再 加 1 ) 的 平均 差 和 标准 差 ， 对 于 100 到 10 000 之 间 的 每 
个 W 重 复 实验 1000 遍 。 将 结果 绘制 成 和 图 3.2.14 相似 的 一 张 Tufte 图 ， 并 画 上 函数 1.39lgN-1.85 
的 曲线 (请 见 练习 3.2.35 和 练习 3.2.39 ) 。 





节点 数 是 Rt 


图 3.2.14 一 棵 随机 构造 的 二 叉 查 找 树 中 由 根 到 达 任 意 结 点 的 平均 路 径 长 度 ( 另 见 彩 插 ) 
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3.3 平衡 查找 树 


我 们 在 前 面 几 节 中 学 习 过 的 算法 已 经 能 够 很 好 地 用 于 许多 应 用 程序 中 ， 但 它们 在 最 坏 情况 下 的 
性 能 还 是 很 糟糕 。 在 本 节 中 我 们 会 介绍 一 种 二 分 查找 树 并 能 保证 无 论 如 何 构造 它 ， 它 的 运行 时 间 都 
是 对 数 级 别 的 。 理 想 情况 下 我 们 希望 能 够 保持 二 分 查找 树 的 平衡 性 。 在 一 棵 含有 N 个 结 点 的 树 中 ， 
我 们 希望 树 高 为 ~lgN, 这 样 我 们 就 能 保证 所 有 查找 都 能 在 ~lgN 次 比较 内 结束 , 就 和 二 分 查找 一 样 (请 
见 命题 B ) 。 不 幸 的 是 ， 在 动态 插入 中 保证 树 的 完美 平衡 的 代价 太 高 了 。 在 本 节 中 ， 我 们 稍稍 放松 
完美 平衡 的 要 求 并 将 学 习 一 种 能 够 保证 符号 表 API 中 所 有 操作 ( 范围 查找 除外 ) 均 能 够 在 对 数 时 间 
内 完成 的 数据 结构 。 


3.3.1 2-3 查找 树 


为 了 保证 查找 树 的 平衡 性 ， 我 们 需要 一 些 灵活 性 ， 因 此 在 这 里 我 们 允许 树 中 的 一 个 结 点 保存 多 
个 键 。 确 切 地 说 ， 我 们 将 一 棵 标准 的 二 叉 查 找 树 中 的 结 点 称 为 2- 结 点 ( 含有 一 个 键 和 两 条 链接 ) ， 
而 现在 我 们 引入 3- 结 点 ， 它 含有 两 个 键 和 三 条 链接 。2- 结 点 和 3- 结 点 中 的 每 条 链接 都 对 应 着 其 中 
保存 的 键 所 分 割 产生 的 一 个 区 间 。 





图 3.3.1 2-3 查找 树 示意 图 


一 棵 完美 平衡 的 2-3 查找 树 中 的 所 有 空 链接 到 根 结 点 的 距离 都 应 该 是 相同 的 。 简 洁 起 见 ， 这 里 
我 们 用 2-3 树 指 代 一 棵 完美 平衡 的 2-3 查找 树 ( 在 其 他 情况 下 这 个 词 应 该 表示 一 种 更 一 般 的 结构 ) 。 
稍 后 我 们 将 会 学 习 定义 并 高 效 地 实现 2- 结 点 、3- 结 点 和 2-3 树 的 基本 操作 。 现 在 先 假设 我 们 已 经 能 
够 自如 地 操作 它们 并 来 看 看 应 该 如 何 将 它们 用 作 查 找 树 。 
3.3.1.1 查找 

将 二 又 查找 树 的 查找 算法 一 般 化 我 们 就 能 够 直接 得 到 2-3 树 的 查找 算法 。 要 判断 一 个 键 是 否 在 
树 中 ， 我 们 先 将 它 和 根 结 点 中 的 键 比较 。 如 果 它 和 其 中 任意 一 个 相等 ， 查 找 命中 ; 否则 我 们 就 根据 
比较 的 结果 找到 指向 相应 区 间 的 链接 ， 并 在 其 指向 的 子 树 中 递归 地 继续 查找 。 如 果 这 是 个 空 链接 ， 
查找 未 命中 。 具 体 查找 过 程 如 图 3.3.2 所 示 。 








270 PP 第 3 章 查 找 





425 











对 H 的 命中 查找 对 B 的 未 命中 查找 
H 小 于 M， 在 左 子 树 中 继续 查找 B 小 于 M， 在 左 子 树 中 继续 查找 
~@ ~@ 
(GE G (GBD. Q 
QM WD ER MQ RB ER 
要 B 小 于 E， 在 左 
br 
(ED NE 
oho. CuIoRo 
® 
t 
找到 H， 返 回 相 应 的 值 ( 命 中 ) B 在 A 和 C 之 间 ， 在 中 子 树 中 继续 查找 
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3.3.1.2 向 2- 结 点 中 插入 新 键 插入 K 9) 

要 在 2-3 树 中 插入 一 个 新 结 点 ， 我 们 可 以 和 二 叉 查 找 树 CE] 
一 样 先进 行 一 次 未 命中 的 查找 , 然后 把 新 结 点 挂 在 树 的 底部 。 
但 这 样 的 话 树 无 法 保持 完美 平衡 性 。 我 们 使 用 2-3 树 的 主要 
原因 就 在 于 它 能 够 在 插入 后 继续 保持 平衡 。 如 果 未 命中 的 查 对 K 的 查找 在 此 处 结束 
找 结束 于 一 个 2- 结 点 ， 事 情 就 好 办 了 : 我 们 只 要 把 这 个 2- 
结 点 替换 为 一 个 3- 结 点 ， 将 要 插入 的 键 保存 在 其 中 即 可 ( 如 
图 3.3.3 所 示 ) 。 如 果 未 命中 的 查找 结束 于 一 个 3- 结 点 ， 事 
依 就 杰 麻 健一 些 。 答 议 2- 结 上 多 为 一个 
3.3.1.3 ”向 一 棵 只 含有 一 个 3- 结 点 的 树 中 插入 新 键 新 的 含有 K 的 3- 结 点 

在 考虑 一 般 情况 之 前 ， 先 假设 我 们 需要 向 一 棵 只 含有 一 图 333 向 二 结 点 中 插入 新 的 人 
个 3- 结 点 的 树 中 插入 一 个 新 键 。 这 樟树 中 有 两 个 键 ， 所 以 
在 它 唯一 的 结 点 中 已 经 没有 可 插 人 新 键 的 空间 了 。 为 了 将 新 键 插入 ， 我 们 先 临时 将 新 键 存 人 该 结 
点 中 , 使 之 成 为 一 个 4- 结 点 。 它 很 自然 地 扩展 了 以 前 的 结 点 并 含有 3 个 键 和 4 条 链接 。 创建 一 个 4- 
结 点 很 方便 , 因为 很 容易 将 它 转换 为 一 棵 由 3 个 2- 结 点 组 成 的 2-3 树 ,其 中 一 个 结 点 ( 根 ) 含 有 中 键 ， 
一 个 结 点 含有 3 个 键 中 的 最 小 者 ( 和 根 结 点 的 左 链接 相连 ) ,一 个 结 点 含有 3 个 键 中 的 最 大 者 ( 和 
根 结 点 的 右 链接 相连 )。 这 棵 树 既是 一 棵 含有 3 个 结 点 的 二 叉 查 找 树 , 同时 也 是 一 棵 完美 平衡 的 2-3 
树 ， 因 为 其 中 所 有 的 空 链接 到 根 结 点 的 距离 都 相等 。 插 入 前 树 的 高 度 为 0， 插 人 后 树 的 高 度 为 1。 
这 个 例子 很 简单 但 却 值得 学 习 ， 它 说 明了 2-3 树 是 如 何 生长 的 ， 如 图 3.3.4 所 示 。 
3.3.1.4 ”向 一 个 父 结 点 为 2- 结 点 的 3- 结 点 中 插入 新 刍 

作为 第 二 轮 热 身 ， 候 设 未 命中 的 查找 结束 于 一 个 3- 结 点 ， 而 它 的 父 结 点 是 一 个 2- 结 点 。 在 这 
种 情况 下 我 们 需要 在 维持 树 的 完美 平衡 的 前 提 下 为 新 键 腾 出 空间 。 我 们 先 像 刚才 一 样 构 造 一 个 临时 








的 4- 结 点 并 将 其 分 解 ， 但 此 时 我 们 不 会 为 中 键 创建 一 个 新 结 点 ， 而 是 将 其 移动 至 原来 的 父 结 点 中 。 

你 可 以 将 这 次 转换 看 成 将 指向 原 3- 结 点 的 -一 条 链接 替换 为 新 父 结 点 中 的 原 中 键 左右 两 边 的 两 条 链 
接 , 并 分 别 指向 两 个 新 的 2- 结 点 。 根 据 我 们 的 假设 , 父 结 点 中 是 有 空间 的 : 父 结 点 是 一 个 2- 结 点 (一 
个 键 两 条 链接 ) ,插入 之 后 变 为 了 一 个 3- 结 点 ( 两 个 键 3 条 链接 ) 。 另 外 , 这 次 转换 也 并 不 影响 ( 完 
美 平衡 的 ) 2-3 树 的 主要 性 质 。 树 仍然 是 有 序 的 ,- 因为 中 键 被 移动 到 父 结 点 中 去 了 ; 树 仍然 是 完美 
平衡 的 , 插入 后 所 有 的 空 链接 到 根 结 点 的 距离 仍然 相同 。 请 确认 你 完全 理解 了 这 次 转换 一 一 它 是 2-3 
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3.3.1.5 ”向 一 个 父 结 点 为 3- 结 点 的 3- 结 点 中 插入 新 键 

现在 假设 未 命中 的 查找 结束 于 一 个 父 结 点 为 3- 结 点 的 结 点 。 我 们 再 次 和 刚才 一 样 构造 一 个 
临时 的 4- 结 点 并 分 解 它 ， 然 后 将 它 的 中 键 插入 它 的 父 结 点 中 。 但 父 结 点 也 是 一 个 3- 结 点 ， 因 此 
我 们 再 用 这 个 中 键 构造 一 个 新 的 临时 4- 结 点 ， 然 后 在 这 个 结 点 上 进行 相同 的 变换 ， 即 分 解 这 个 
父 结 点 并 将 它 的 中 键 插入 到 它 的 父 结 点 中 去 。 推 广 到 一 般 情况 ， 我 们 就 这 样 一 直 向 上 不 断 分 解 临 
时 的 4- 结 点 并 将 中 键 插 人 更 高 层 的 父 结 点 ， 直 至 遇 到 一 个 2- 结 点 并 将 它 替 换 为 一 个 不 需要 继续 
分 解 的 3- 结 点 ,或 者 是 到 达 3- 结 点 的 根 。 该 过 程 如 图 3.3.6 所 示 。 - 
3.3.1.6 “分 解 根 结 点 和 

如 果 从 插入 结 点 到 根 结 点 的 路 径 上 全 都 是 3- 结 点 , 我 们 的 根 结 点 最 终 变 成 一 个 临时 的 4- 结 点 。 
此 时 我 们 可 以 按照 向 一 棵 只 有 一 个 3- 结 点 的 树 中 插入 新 键 的 方法 处 理 这 个 问题 。 我 们 将 临时 的 4- 
结 点 分 解 为 3 个 2- 结 点 ， 使 得 树 高 加 1， 如 图 3.3.7 所 示 。 请 注意 ， 这 次 最 后 的 变换 仍然 保持 了 树 
的 完美 平衡 性 ， 因 为 它 变换 的 是 根 结 点 。 
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图 3.3.6 向 一 个 父 结 点 为 3- 结 点 的 3- 结 点 中 插入 新 键 图 3.3.7 分 解 根 结 点 
3.3.1.7 局 部 变换 


将 一 个 4- 结 点 分 解 为 一 棵 2-3 树 可 能 有 6 种 情况 ， 都 总 结 在 了 图 3.3.8 中 。 这 个 4- 结 点 可 能 是 
根 结 点 ， 可 能 是 一 个 2- 结 点 的 左 子 结 点 或 者 右 子 结 点 ， 也 可 能 是 一 个 3- 结 点 的 左 子 结 点 、 中 子 结 
点 或 者 右 子 结 点 。2-3 树 插 人 算法 的 根本 在 于 这 些 变换 都 是 局 部 的 : 除了 相关 的 结 点 和 链接 之 外 不 
必修 改 或 者 检查 树 的 其 他 部 分 。 每 次 变换 中 ， 变 更 的 链接 数量 不 会 超过 一 个 很 小 的 常数 。 需 要 特别 
指出 的 是 ， 不 光 是 在 树 的 底部 ， 树 中 的 任何 地 方 只 要 符合 相应 的 模式 ， 变 换 都 可 以 进行 。 每 个 变换 
都 会 将 4- 结 点 中 的 一 个 键 送 入 它 的 父 结 点 中 ， 并 重 构 相应 的 链接 而 不 必 涉 及 树 的 其 他 部 分 。 
3.3.1.8 ”全 局 性 质 

这 些 局 部 变换 不 会 影响 树 的 全 局 有 序 性 和 平衡 性 : 任意 空 链接 到 根 结 点 的 路 径 长 度 都 是 相等 
的 。 作 为 参考 ， 图 3.3.9 所 示 的 是 当 一 个 4- 结 点 是 一 个 3- 结 点 的 中 子 结 点 时 的 完整 变换 情况 。 如 
果 在 变换 之 前 根 结 点 到 所 有 空 链接 的 路 径 长 度 为 h， 那 么 变换 之 后 该 长 度 仍然 为 h。 所 有 的 变换 都 
具有 这 个 性 质 ， 即 使 是 将 一 个 4- 结 点 分 解 为 两 个 2- 结 点 并 将 其 父 结 点 由 2- 结 点 变 为 3- 结 点 ,或 
是 由 3- 结 点 变 为 一 个 临时 的 4- 结 点 时 也 是 如 此 。 当 根 结 点 被 分 解 为 3 个 2- 结 点 时 ， 所 有 空 链接 
到 根 结 点 的 路 径 长 度 才 会 加 1。 如 果 你 还 没有 完全 理解 ， 请 完成 练习 3.3.7。 它 要 求 你 为 其 他 的 5 
种 情况 画 出 图 3.3.8 的 扩展 图 来 证 明 这 一 点 。 理 解 所 有 局 部 变换 都 不 会 影响 整 棵 树 的 有 序 性 和 平衡 
性 是 理解 这 个 算法 的 关键 。 
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图 3.3.8 在 一 棵 2-3 树 中 分 解 一 个 4- 结 点 的 情况 汇总 
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图 3.3.9 4- 结 点 的 分 解 是 一 次 局 部 变换 ， 不 会 影响 树 的 有 序 性 和 平衡 性 428| 
和 标准 的 二 又 查找 树 由 上 向 下 生长 不 同 ，2-3 树 的 生长 是 由 下 向 上 的 。 如 果 你 花 点 时 间 仔细 研 
究 一 下 图 3.3.10， 就 能 很 好 地 理解 2-3 树 的 构造 方式 。 它 给 出 了 我 们 的 标准 索引 测试 用 例 中 产生 的 
一 系列 2-3 树 ， 以 及 一 系列 由 同一 组 键 按照 升序 依次 插入 到 树 中 时 所 产生 的 所 有 2-3 树 。 还 记得 在 
二 叉 查 找 树 中 ， 按 照 升序 插入 10 个 键 会 得 到 高 度 为 9 的 一 棵 最 差 查找 树 吗 ? 如 果 使 用 2-3 树 ， 树 
的 高 度 是 2。 
以 上 的 文字 已 经 足够 为 我 们 定义 一 个 使 用 2-3 树 作为 数据 结构 的 符号 表 的 实现 了 。2-3 树 的 分 
析 和 二 又 查 找 树 的 分 析 大 不 相同 ， 因 为 我 们 主要 感 兴趣 的 是 最 坏 情况 下 的 性 能 ， 而 非 一 般 情况 (这 
种 情况 下 我 们 会 用 随机 键 模型 分 析 预 期 的 性 能 ) 。 在 符号 表 的 实现 中 ， 一 般 我 们 无 法 控制 用 例会 按 
照 什 么 顺序 向 表 中 插入 键 ， 因 此 对 最 坏 情况 的 分 析 是 唯一 能 够 提供 性 能 保证 的 办 法 。 














命题 F。 在 一 棵 大 小 为 V 的 2-3 树 中 ， 查找 和 插入 操作 访问 的 结 点 必然 不 超过 IgN 个 。 


证 明 。 一 棵 含有 入 个 结 点 的 2-3 树 的 高 度 在 LiogsNJ=|(lgN)(lg3)]( 如 果树 中 全 是 3- 结 点 ) 和 
LigN] ( 如 果树 中 全 是 2- 结 点 ) 之 间 《请 见 练习 3.3.4) 。 
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标准 的 索引 用 例 同一 组 键 ， 按 升序 插入 
图 3.3.10 ”2-3 树 的 构造 轨迹 
因此 我 们 可 以 确定 2-3 树 在 最 坏 情况 下 仍 有 较 好 的 性 能 。 每 个 操作 中 处 理 每 个 结 点 的 时 间 都 不 会 
超过 一 个 很 小 的 常数 ， 且 这 两 个 操作 都 只 会 访问 一 条 路 径 上 的 结 点 ， 所 以 任何 查找 或 者 插入 的 成 本 都 
肯定 不 会 超过 对 数 级 别 。 通 过 对 比 图 3.3.11 中 的 2-3 树 和 表 3.2.1 中 由 相同 的 键 构造 的 二 叉 查 找 树 你 也 
可 以 看 到 ， 完 美 平衡 的 2-3 树 要 平展 得 多 。 例 如 ， 含 有 10 亿 个 结 点 的 一 棵 2-3 树 的 高 度 仅 在 19 到 30 
之 间 。 我 们 最 多 只 需要 访问 30 个 结 点 就 能 够 在 10 亿 个 键 中 进行 任意 查找 和 插 人 操作 ,这 是 相当 惊人 的 。 


图 3.3.11 由 随机 键 构造 的 一 棵 典型 的 2-3 树 
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但 是 ,我们 和 真正 的 实现 还 有 一 段 距离 。 尽 管 我 们 可 以 用 不 同 的 数据 类 型 表示 2- 结 点 和 3- 结 
点 并 写 出 变换 所 需 的 代码 ， 但 用 这 种 直 白 的 表示 方法 实现 大 多 数 的 操作 并 不 方便 ， 因 为 需要 处 理 的 
情况 实在 太 多 。 我 们 需要 维护 两 种 不 同类 型 的 结 点 ， 将 被 查找 的 键 和 结 点 中 的 每 个 键 进行 比较 ， 将 
链接 和 其 他 信息 从 一 种 结 点 复制 到 另 一 种 结 点 ， 将 结 点 从 一 种 数据 类 型 转换 到 另 一 种 数据 类 型 ， 等 
等 。 实 现 这 些 不 仅 需要 大 量 的 代码 ， 而 且 它们 所 产生 的 额外 开销 可 能 会 使 算法 比 标准 的 二 叉 查找 树 
更 慢 。 平 衡 一 棵 树 的 初 庄 是 为 了 消除 最 坏 情况 ， 但 我 们 希望 这 种 保障 所 需 的 代码 能 够 越 少 越 好 。 幸 
运 的 是 你 将 看 到 ， 我 们 只 需要 一 点 点 代价 就 能 用 一 种 统一 的 方式 完成 所 有 变换 。 


3.3.2 ” 红 黑 二 叉 查找 树 


上 文 所 述 的 2-3 树 的 插入 算法 并 不 难 理解 ， 现 在 我 们 会 看 到 它 也 不 难 实现 。 我 们 要 学 习 一 种 名 
.为 红 黑 二 又 查找 树 的 简单 数据 结构 来 表达 并 实现 它 。 最 后 的 代码 量 并 不 大 ， 但 理解 这 些 代码 是 如 何 
工作 的 以 及 为 什么 能 够 工作 却 需 要 一 番 仔 细 的 探究 。 
3.3.2.1 “替换 3- 结 点 

红 黑 二 叉 查 找 树 背后 的 基本 思想 是 用 标准 的 二 叉 查 找 树 ( 完 ”. 3- 结 点 (ED) 
全 由 2- 结 点 构成 ) 和 一 些 额外 的 信息 ( 替换 3 - 结 点 ) 来 表示 2-3 -一 Ge 


树 。 我 们 将 树 中 的 链接 分 为 两 种 类 型 ; 红 链 接 将 两 个 2 结 点 连 Ee 

接 起 来 构成 一 个 3- 结 点 ， 黑 链接 则 是 2-3 树 中 的 普通 链接 。 确 Wp i Wr 
” 切 地 说 ,我 们 将 3- 结 点 表示 为 由 一 条 左 针 的 红色 链接 ( 两 个 2- 2 

结 点 其 中 之 一 是 另 一 个 的 左 子 结 点 ) 相连 的 两 个 2- 结 点 , 如 图 ” ， ， 包 

3.3.12 所 示 。 这 种 表示 法 的 一 个 优点 是 ， 我 们 无 需 修改 就 可 以 直 nz OA 

接 使 用 标准 二 又 查找 树 的 getC) 方法 。 对 于 任意 的 2.3 树 , 只 ”小 Te | bn 

要 对 结 点 进行 转换 ， 我 们 都 可 以 立即 派生 出 一 棵 对 应 的 二 又 查 

找 树 。 我 们 将 用 这 种 方式 表示 2.3 树 的 二 又 查找 树 称 为 红 黑 二 又 轩 33.2 “os 

查找 树 ( 以 下 简称 为 红 黑 树 ) 。 ”个 3- 结 点 ( 另 见 彩 插 ) 


3.3.2.2 一 种 等 价 的 定义 
红 黑 树 的 另 一 种 定义 是 含有 红 黑 链接 并 满足 村 的 叉 查 找 树 : 
口 红 链 接 均 为 左 链接 ; 
口 没有 任何 一 个 结 点 同时 和 两 条 红 链 接 相连 ; 
口 该 树 是 完美 黑色 平衡 的 ， 即 任意 空 链接 到 根 结 点 的 路 径 上 的 黑 链接 数量 相同 。 
满足 这 样 定义 的 红 黑 树 和 相应 的 2-3 树 是 一 一 对 应 的 。 . 
3.3.2.3 一 一 对 应 
如 果 我 们 将 一 棵 红 黑 树 中 的 红 链 接 画 平 , 那么 所 有 的 空 链接 到 根 结 点 的 距离 都 将 是 相同 的 ( 如 
图 3.3.13 所 示 ) 。 如 果 我 们 将 由 红 链 接 相连 的 结 点 合并 ， 得 到 的 就 是 一 棵 2.3 树 。 相 反 ， 如 果 将 


一 棵 2:3 树 中 的 3- 结 点 画作 由 红色 左 链接 相连 的 两 个 2- 结 点 ， 那 么 不 会 存在 能 够 和 两 条 红 链 接 : 


相连 的 结 点 ， 且 树 必然 是 完美 黑色 平衡 的 ， 因 为 黑 链 接 即 2-3 树 中 的 普通 链接 ， 根 据 定义 这 些 链 
接 必然 是 完美 平衡 的 。 无 论 我 们 选择 用 何 种 方式 去 定义 它们 ， 红 黑 树 都 婚 是 二 又 查找 树 ， 也 是 2-3 
树 ， 如 图 3.3.14 所 示 。 因 此 ,如 果 我 们 能 够 在 保持 一 一 对 应 关系 的 基础 上 实现 2-3 树 的 插入 算法 ， 
那么 我 们 就 能 够 将 两 个 算法 的 优点 结合 起 来 : 二 又 查找 树 中 简洁 高 效 的 查找 方法 和 2-3 树 中 高 效 
的 平衡 插入 算法 。 
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图 3.3.13， 将 红 链 接 画 平时 ， 一 棵 红 黑 树 就 是 一 棵 2-3 树 〈 另 见 彩 插 ) 


3.3.2.4 颜色 表示 

方便 起 见 ， 因 为 每 个 结 点 都 只 会 有 一 条 指向 自己 的 链接 ( 从 它 的 父 结 点 指向 它 ) ， 我 们 将 
链接 的 颜色 保存 在 表示 结 点 的 Node 数 据 类 型 的 布尔 变量 color 中 。 如果 指向 它 的 链接 是 红色 的 ， 
那么 该 变量 为 true， 黑 色 则 为 false。 我 们 约定 空 链接 为 黑色 。 为 了 代码 的 清晰 我 们 定义 了 两 
个 常量 RED 和 BLACK 来 设置 和 测试 这 个 变量 。 我 们 使 用 私有 方法 isRed() 来 测试 一 个 结 点 和 
它 的 父 结 点 之 间 的 链接 的 颜色 。 当 我 们 提 到 一 个 结 点 的 颜色 时 ， 我 们 指 的 是 指向 该 结 点 的 链接 
的 颜色 ， 反 之 亦 然 。 颜 色 表 示 的 代码 实现 如 图 3.3.15 所 示 。 


h.1eft.color i 


h.right.color 
的 值 是 RED “wg 加 二 的 值 是 BLACK 
由 名 


‘private static final boolean RED ~ true; 
private static final boolean BLACK ~ false; 


红 黑 树 private class Node 
{ 


Key key; /1/ 键 

Value val; // 相 关联 的 什 

Node left，right; // 左右 于 树 

int N; /1/ 这 样子 树 中 的 结 点 总数 
boolean color; /1/ 由 其 父 结 点 指向 它 的 链接 的 颜色 





Node(Key key, Value val, int N, boolean color) 

this.key = key; 
this.val = val; 
this.N =N; 
this.color = color; 

} 

private boolean isRed(Node x) 

和 


if (x 一 nu11) return false; 
-return x.color 一 RED; 





图 3.3.14 ” 红 黑 树 和 2-3 树 的 一 一 对 应 关系 〈 另 见 彩 插 ) ”图 3.3.15 ” 红 黑 树 的 结 点 表示 ( 另 见 彩 插 ) 


3.3.2.5 旋转 

在 我 们 实现 的 某 些 操作 中 可 能 会 出 现 红色 右 链接 或 者 两 条 连续 的 红 链 接 ， 但 在 操作 完成 前 这 些 
情况 都 会 被 小 心地 旋转 并 修复 。 旋 转 操作 会 改变 红 链 接 的 指向 。 首 先 ， 假 设 我 们 有 一 条 红色 的 右 链 
接 需 要 被 转化 为 左 链接 ( 请 见 图 3.3.16 ) 。 这 个 操作 叫做 去 旋转， 它 对 应 的 方法 接受 一 条 指向 红 黑 
树 中 的 某 个 结 点 的 链接 作为 参数 。 假 设 被 指向 的 结 点 的 右 链接 是 红色 的 ， 这 个 方法 会 对 树 进行 必要 
的 调整 并 返回 一 个 指向 包含 同一 组 键 的 于 树 且 其 左 链 接 为 红色 的 根 结 点 的 链接 。 如 果 你 对 照 图 示 中 


[四 引 调整 前 后 的 情况 逐 行 阅读 这 段 代 码 ， 你 会 发 现 这 个 操作 很 容易 理解 : 我 们 只 是 将 用 两 个 键 中 的 较 小 
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者 作为 根 结 点 变 为 将 较 大 者 作为 根 结 点 。 实 现 将 一 个 红色 左 链接 转换 为 一 个 红色 右 链 接 的 一 个 右 旋 
转 的 代码 完全 相同 ， 只 需要 将 eft 换 成 right 即 可 ( 如 图 3.3.17 所 示 ) 。 
3.3.2.6 ”在 旋转 后 重 置 父 结 点 的 链接 

无 论 左旋 转 还 是 右 旋转 ， 旋 转 操作 都 会 返回 一 条 链接 。 我 们 总 是 会 用 rotateRight() 或 
rotateLeft() 的 返回 值 重 置 父 结 点 ( 或 是 根 结 点 ) 中 相应 的 链接 。 返 回 的 链接 可 能 是 左 链接 也 
可 能 是 右 链接 ， 但 是 我 们 总 会 将 它 赋予 父 结 点 中 的 链接 。 这 个 链接 可 能 是 红色 也 可 能 是 黑色 一 一 
rotateLeft() 和 rotateRight() 都 通过 将 x.color 设 为 h.color 保留 它 原来 的 颜色 。 这 可 
能 会 产生 两 条 连续 的 红 链 接 ， 但 我 们 的 算法 会 继续 用 旋转 操作 修正 这 种 情况 。 例 如 ， 代 码 h = 
rotateLeft(h); 将 旋转 结 点 h 的 红色 右 链接 ,使 得 h 指向 了 旋转 后 的 子 树 的 根 结 点 ( 组 成 该 子 树 
中 的 所 有 键 和 旋转 前 相同 ， 只 是 根 结 点 发 生 了 变化 ) 。 这 种 简洁 的 代码 是 我 们 使 用 递归 实现 二 又 查 
找 树 的 各 种 方法 的 主要 原因 。 你 会 看 到 ， 它 使 得 旋转 操作 成 为 了 普通 插入 操 作 的 一 个 简单 补充 。 









可 能 是 左 链接 也 可 能 是 
h、 1 一 右 链接 ， 颜 色 可 红 可 黑 h 
~ ee 
se > 
(FE) 人 / 和 /\ (大 Fs ) 
\ 4 /NFEN \ 介 于 E Na 
(和 Ss 之 间 ) ( 大 于 5 ) 小 于 E ) (和 Ss 之 间 ) 
pr rotateLeft (Node h) pi rotateRight (Node h) 
Node x = h.right; Node x ~ h.left; 
h.right left; h.left = x.right; 
x.left = x-right = hi 
x.color olor; x.color = h.color; 
h.color = RED; h.color = RED; 
XN = h.N; XN = h.N; 
hiN = 1'+ sizeCh. left) hiN = 1 + sizeCh. left) 
+ SizeCh. right); + sizeCh. right); 
return xi return x; 
} x } x 
h、 wh 
\ Ni FS 
dai LES 4FE) [TEN /NN 
(小 于 E ) (和 S 之 间 ) (和 S 之 间 ) ( 大 于 S ) 
图 3.3.16 左旋 转 h 的 右 链接 ( 另 见 彩 插 ) 图 3.3.17 右 旋转 h 的 左 链接 ( 另 见 彩 插 ) 434 











在 插 人 新 的 键 时 我 们 可 以 使 用 旋转 操作 帮助 我 们 保证 2-3 树 和 红 黑 树 之 间 的 一 一 对 应 关系 ， 因 为 旋 
转 操作 可 以 保持 红 黑 树 的 两 个 重要 性 质 ， 有 序 性 和 完美 平衡 性 。 也 就 是 说 ， 我 们 在 红 黑 树 中 进行 旋转 时 
无 需 为 树 的 有 序 性 或 者 完美 平衡 性 担心 。 下 面 我 们 来 看 看 应 该 如 何 使 用 旋转 操作 来 保持 红 黑 树 的 另外 两 
个 重要 性 质 ( 不 存在 两 条 连续 的 红 链 接 和 不 存在 红色 的 右 链接 ) 。 我 们 先 用 一 些 简单 的 情况 热 热身 。 
3.3.2.7 向 2- 结 点 中 插入 新 键 

一 棵 只 含有 一 个 键 的 红 黑 树 只 含有 一 个 2- 结 点 。 插 入 另 一 个 键 之 后 ,我 们 马上 就 需要 将 它们 
旋转 。 如 果 新 键 小 于 老 键 ， 我 们 只 需要 新 增 一 个 红色 的 结 点 即 可 ， 新 的 红 黑 树 和 单个 3- 结 点 完全 等 
价 。 如 果 新 键 大 于 老 键 ， 那么 新 增 的 红色 结 点 将 会 产生 一 条 红色 的 右 链接 。 我 们 需要 使 用 root = 
rotateLeft(root) ; 来 将 其 旋转 为 红色 左 链接 并 修正 根 结 点 的 链接 ， 插 和 人 操作 才 算 完成 。 两 种 情 
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况 的 结果 均 为 一 棵 和 单个 3- 结 点 等 价 的 红 黑 树 , 其 中 含有 两 个 键 , 一 条 红 链 接 , 树 的 黑 链 接 高 度 为 1， 
如 图 3.3.18 所 示 。 
3.3.2.8 向 树 底部 的 2- 结 点 插入 新 键 

用 和 二 叉 查 找 树 相 同 的 方式 向 一 棵 红 黑 树 中 插入 一 个 新 键 会 在 树 的 底部 新 增 一 个 结 点 〈 为 了 保 
证 有 序 性 ) ， 但 总 是 用 红 链 接 将 新 结 点 和 它 的 父 结 点 相连 。 如 果 它 的 父 结 点 是 一 个 2- 结 点 ， 那 么 
刚才 讨论 的 两 种 处 理 方法 仍然 适用 。 如 果 指 向 新 结 点 的 是 父 结 点 的 左 链接 ， 那 么 父 结 点 就 直接 成 为 
了 一 个 3- 结 点 ; 如 果 指 向 新 结 点 的 是 父 结 点 的 右 链接 ， 这 就 是 一 个 错误 的 3- 结 点 ， 但 一 次 左旋 转 
就 能 够 修正 它 ， 如 图 3.3.19 所 示 。 


向 左 插入 根 结 点 
~、 查找 结束 
于 该 空 链接 
一 根 结 点 播 XC 。 个 
指向 含有 a 的 
oe 新 结 点 的 红 链 人 入. -机 
接 将 这 个 2- 结 点 人 
变 为 一 个 3- 结 点 大 
bl 
及 可 拓 入 要 结 点 出 现 红色 右 链 接 ， 
查找 结束 进行 左旋 转 
于 该 链接 全 
用 红 链接 和 位 人 @ 
A Wo 
一 根 结 点 GB 
左旋 转 得 到 一 人 
“个 正常 的 3- 结 点 A 风 


图 3.3.18 向 单个 2- 结 点 中 插入 一 个 新 键 图 3.3.19 向 树 底部 的 2- 结 点 插入 一 个 新 键 
( 另 见 彩 插 ) 


彩 


3.3.2.9 向 一 棵 双 键 树 〈 即 一 个 3- 结 点 ) 中 插入 新 键 
这 种 情况 又 可 分 为 三 种 子 情况 : 新 键 小 于 树 中 的 两 个 键 ， 在 两 者 之 间 ， 或 是 大 于 树 中 的 两 个 键 。 
每 种 情况 中 都 会 产生 一 个 同时 连接 到 两 条 红 链 接 的 结 点 ， 而 我 们 的 目标 就 是 修正 这 一 点 。 
口 三 者 中 最 简单 的 情况 是 新 键 大 于 原 树 中 的 两 个 键 ， 因 此 它 被 连接 到 3- 结 点 的 右 链接 。 此 时 
树 是 平衡 的 ， 根 结 点 为 中 间 大 小 的 键 ， 它 有 两 条 红 链 接 分 别 和 较 小 和 较 大 的 结 点 相连 。 如 果 
我 们 将 两 条 链接 的 颜色 都 由 红 变 黑 ， 那 么 我 们 就 得 到 了 一 棵 由 三 个 结 点 组 成 、 高 为 2 的 平衡 
树 。 它 正好 能 够 对 应 一 棵 2-3 树 , 如 图 3.3.20 ( 左 ) 。 其 他 两 种 情况 最 终 也 会 转化 为 这 种 情况 。 
435 口 如 果 新 键 小 于 原 树 中 的 两 个 键 ， 它 会 被 连接 到 最 左边 的 空 链接 ， 这 样 就 产生 了 两 条 连续 的 红 
链接 ， 如 图 3.3.20 ( 中 ) 。 此 时 我 们 只 需要 将 上 层 的 红 链 接 右 旋转 即 可 得 到 第 一 种 情况 〈 中 
值 键 为 根 结 点 并 和 其 他 两 个 结 点 用 红 链 接 相连 ) 。 
口 如 果 新 键 介 于 原 树 中 的 两 个 键 之 间 ， 这 又 会 产生 两 条 连续 的 红 链 接 ， 一 条 红色 左 链接 接 一 条 
红色 右 链接 ， 如 图 3.3.20 ( 右 ) 。 此 时 我 们 只 需要 将 下 层 的 红 链 接 左旋 转 即 可 得 到 第 二 种 情 
况 (两 条 连续 的 红色 左 链接 ) 。 
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总 的 来 说 ， 我 们 通过 0 次 、1 次 和 2 次 旋转 以 及 颜色 的 变化 得 到 了 期 望 的 结果 。 在 23 树 中 ， 
请 确认 你 完全 理解 了 这 些 转换 ， 它 们 是 红 黑 树 的 动态 变化 的 关键 。 


新 键 最 大 新 键 最 小 新 键 介 于 两 者 之 间 


扣 查找 结束 
@/ 一干 该 空 链接 (人 
查找 结束 


于 该 空 链接 


用 红 链 接 和 G 
一 新 结 点 相连 。 (BI 
入 总 (8{ ~ 六、 用 f 链 接 和 
新 结 点 相连 


7 


查找 结束 

“一 于 该 空 链接 
-用 红 [链接 和 
Vb) ”新 结 点 相连 


G 
QI 
~ 


旋转 后 变 为 
-一生 作 乓 本 雪 人 旋转 后 变 为 红色 左 链 搂 
[@ .将 甸 村 


将 链接 颜 
起. 一 色 变 为 时 


旋转 后 变 为 
Bed 红色 有 链接 
@ 一 将 链接 闫 


色 变 为 黑 


图 3.3.20 向 一 棵 双 键 树 〈 即 一 个 3- 结 点 ) 中 插入 一 个 新 键 的 三 种 情况 〈 另 见 彩 插 ) 


3.3.2.10” 颜 色 转换 “ 
如 图 3.3.21 所 示 ， 我 们 专门 用 一 个 方法 flipCo- 
Tors() 来 转换 一 个 结 点 的 两 个 红色 子 结 点 的 颜色 。 除 


了 将 子 结 点 的 颜色 由 红 变 黑 之 外 ， 我 们 同时 还 要 将 父 - 


结 点 的 颜色 由 黑 变 红 。 这 项 操作 最 重要 的 性 质 在 于 它 
“和 旋转 操作 一 样 是 局 部 变换 ， 不 会 影响 整 宰 树 的 黑色 
平衡 性 。 根 据 这 一 点 ， 我 们 马上 能 够 在 下 面 完整 地 实 
现 红 黑 树 。 p 
3.3.2.11， 根 结 点 总 是 黑色 
在 3.3.29 所 述 的 情况 中 ， 颜 色 转 换 会 使 根 结 点 变 
为 红色 。 这 也 可 能 出 现在 很 大 的 红 黑 树 中 。 严格 地 说 
红色 的 根 结 点 说 明 根 结 点 是 一 个 3- 结 点 的 一 部 分 , 但 
实际 情况 并 不 是 这 样 。 因 此 我 们 在 每 次 插入 后 都 会 将 
” 根 结 点 设 为 黑色 。 注 意 ， 每 当 根 结 点 由 红 变 黑 时 树 的 
黑 链接 高 度 就 会 加 1。 
” 3.3.2.12 向 树 底部 的 3- 结 点 插入 新 键 
现在 假设 我 们 需要 在 树 的 底部 的 一 个 3- 结 点 下 加 
入 一 个 新 结 点 。 前 面 讨论 过 的 三 种 情况 都 会 出 现 ， 如 
图 3.3.22 所 示 。 指 向 新 结 点 的 链接 可 能 是 3- 结 点 的 右 


机 能 是 左 链接 ， 
也 可 能 是 右 链接 





/NFAN\ /NFEN /Ne 
小 于 A ) (和 E 之 间 )( 和 S 之 间 ) ( 大 于 S ) : 
Ye Tipcoiorsoode 中 
h.color = RED; 
h.left.color = BLACK; 
h.right.color = BLACK; 


用 红 链 接 将 中 间 
一 结 点 和 父 结 点 相连 


i 


介 AN /人 FEN /ON 
小 于 A ) (和 E 之 间 ) 和 5 之 间 )( 大 于 S ) 





图 3.3.21 “分 解 4- 结 点 的 同时 转换 链接 的 
颜色 ( 另 见 彩 插 ) 


链接 ( 此 时 我 们 只 需要 转换 颜色 即 可 ) ， 或 是 左 链接 ( 此 时 我 们 需要 进行 右 旋转 然后 再 转换 颜色 ) ， 
或 是 中 链接 ( 此 时 我 们 需要 先 左旋 转 下 层 链接 然后 右 旋转 上 层 链接 ， 最 后 再 转换 颜色 ) 。 颜 色 转 换 ， 
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会 使 到 中 结 点 的 链接 变 红 ， 相 当 于 将 它 送 入 了 父 结 
点 。 这 意味 着 在 父 结 点 中 继续 插入 一 个 新 键 , 我 们 
也 会 继续 用 相同 的 办 法 解决 这 个 问题 。 
3.3.2.13 ”将 红 链 接 在 树 中 向 上 传递 

2-3 树 中 的 插入 算法 需要 我 们 分 解 3- 结 点 ， 
将 中 间 键 插入 父 结 点 ， 如 此 这 般 直 到 遇 到 一 个 2- 
结 点 或 是 根 结 点 。 我 们 所 考虑 过 的 所 有 情况 都 正 
是 为 了 达成 这 个 目标 : 每 次 必要 的 旋转 之 后 我 们 
都 会 进行 颜色 转换 ， 这 使 得 中 结 点 变 红 。 在 父 结 
点 看 来 ， 处 理 这 样 一 个 红色 结 点 的 方式 和 处 理 一 
个 新 插 人 的 红色 结 点 完全 相同 ， 即 继续 把 红 链接 
转移 到 中 结 点 上 去 。 图 3.3.23 中 总 结 的 三 种 情况 
显示 了 在 红 黑 树 中 实现 2-3 树 的 插 人 算法 的 关键 
操作 所 需 的 步骤 : 要 在 一 个 3- 结 点 下 插 人 新 键 ， 
先 创建 一 个 临时 的 4- 结 点 ， 将 其 分 解 并 将 红 链 接 
由 中 间 键 传递 给 它 的 父 结 点 。 重 复 这 个 过 程 ， 我 
们 就 能 将 红 链 接 在 树 中 向 上 传递 , 直至 遇 到 一 个 2- 
结 点 或 者 根 结 点 。 

总 之 ， 只 要 谨慎 地 使 用 左旋 转 、 右 旋转 和 颜 
色 转 换 这 三 种 简单 的 操作 ， 我 们 就 能 够 保证 插入 
操作 后 红 黑 树 和 2-3 树 的 一 一 对 应 关系 。 在 沿 着 
插入 点 到 根 结 点 的 路 径 向 上 移动 时 在 所 经 过 的 每 
个 结 点 中 顺序 完成 以 下 操作 ， 我 们 就 能 完成 插入 
操作 : 

口 如 果 右 子 结 点 是 红色 的 而 左 子 结 点 是 黑色 

的 ， 进 行 左旋 转 ; 





口 如 果 左 子 结 点 是 红色 的 且 它 的 左 子 结 点 也 是 红色 的 ， 


口 如 果 左 右 子 结 点 均 为 红色 ， 进 行 颜色 转换 


人 
2 ee 
Eh 


插入 H 


ER 


eg 
链接 ， 需 要 右 旋 转 


p 


拥有 两 个 红色 子 链接 ， 
a 


i 
， 需 要 左旋 转 
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图 3.3.22 向 树 底部 的 3- 结 点 插入 一 个 新 键 ( 另 
见 彩 插 ) 


进行 右 旋转 ; 


你 应 该 花 点 时 间 确 认 以 上 步骤 处 理 了 前 文 描 


述 的 所 有 情况 。 请 注意 , 第 一 个 操作 表示 将 一 个 2- 
结 点 变 为 一 个 3- 结 点 和 插入 的 新 结 点 与 树 底部 的 
3- 结 点 通过 它 的 中 链接 相连 的 两 种 情况 。 


3.3.3 实现 


因为 保持 树 的 平衡 性 所 需 的 操作 是 由 下 向 上 


右 旋 转 一 
! 颜色 转换 


图 3.3.23 ” 红 黑 树 中 红 链 接 向 上 传递 ( 另 见 彩 插 ) 


在 每 个 所 经 过 的 结 点 中 进行 的 ， 将 它们 植 人 我 们 
已 有 的 实现 中 十 分 简单 :只 需要 在 递归 调用 之 后 
完成 这 些 操作 即 可 ， 如 算法 3.4 所 示 。 上 一 段 中 
列 出 的 三 种 操作 都 可 以 通过 一 个 检测 两 个 结 点 的 
颜色 的 放 语 句 完成 - 尽管 实现 所 需 的 代码 量 很 小 ， 





但 如 果 没 有 我 们 学 习 过 的 两 种 抽象 数据 结构 ( 2-3 树 和 红 黑 树 ) 作为 铺垫 ， 这 段 实现 仍然 会 非常 难 
以 理解 。 在 检查 了 三 到 五 个 结 点 的 颜色 之 后 ( 也 许 还 需要 进行 一 两 次 旋转 以 及 颜色 转换 ) ， 我 们 就 
可 以 得 到 一 棵 近乎 完美 平衡 的 二 叉 查找 树 。 二 - 

图 3.3.24 给 出 了 使 用 我 们 的 标准 索引 测试 用 例 进行 测试 的 轨迹 和 用 同一 组 键 按照 升序 构造 一 棵 
红 黑 树 的 测试 轨迹 。 仅 从 红 黑 树 的 三 种 标准 操作 的 角度 分 析 这 些 例子 对 我 们 理解 问题 很 有 帮助 ， 之 
前 我 们 也 是 这 样 做 的 。 另 一 个 基本 练习 是 检查 它们 和 2-3 树 的 一 一 对 应 关系 (可 以 对 比 图 3.3.10 中 
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由 同一 组 键 构造 的 2-3 树 ) 。 在 两 种 情况 中 你 都 能 通过 思考 将 P 插入 红 黑 树 所 需 的 转换 来 检验 你 对 | 


算法 的 理解 程度 ( 请 见 练习 3.3.12 ) 。 
算法 3.4” 红 黑 树 的 插入 算法 > 3 ~ 


public class RedB1ackBST<key extends Comparable<Key>, Value> 
{ : lf 





private Node root; 
private class Node // 售 有 co1or 安 生 的 ode 寺 全 (请 昂 332. 节 》 


private boolean isRedCNode h) “// 请 见 3.3.24 节 
private Node rot: ft(Node h) // 请 见 图 33.16 一 
private Node roti ght(Node h) // 请 见 图 33.17 
private void f1ipColors(Node h) //- 请 见 图 3.3.21 


private int size() // 请 见 算法 33 
public void put(Key key, Value val) .~ 入 名 
{“// 查找 key， 找 到 则 更 新 其 值 ， 否 则 为 它 新 建 一 个 结 点 


root = put(root, key, Val); 
root .coTor = BLACK; 





private Node put(Node h, Key key, Value val) 
{ 
ETf (Ch = nu11) // 标准 的 揪 入 操作 ;和 父 结 点 用 红 健 接 相 连 
:return new Node(key, val, 1, RED); 


int cmp = key.compareTo(h.key); 

if (emp < 0) h.left = putCh.left, key, val); 
~ else if (cmp > 0) h.right = putCh- right, key, val); 

else h.val = val; 


if (isRed(h.right) && !isRed(h.1left)) h = rotateLeft(h); 
if (CisRed(h.left) &8 isRedCh.1eft.left)) h = rotateRight(h); 
if CisRed(h.left) && isRedCh.right)) fipColors(Ch); 


h.N = sizeCh.Teft) + sizeCh.right) + 1; 
return h; 


:i 


除了 递归 调用 后 的 三 条 if 语句 , 红 黑 树 中 put() 的 递归 实现 和 二 又 查找 树 中 put() 的 实现 完全 相同 。 
它们 在 查找 路 径 上 保证 了 红 黑 树 和 2-3 树 的 一 一 对 应 关系 ， 使 得 树 的 平衡 性 接近 完美 。 第 一 条 if 语句 会 
将 任意 含有 红色 右 链接 的 3- 结 点 (或 临时 的 4- 结 点 ) 向 左旋 转 ; 第 二 条 if 语句 会 将 临时 的 4- 结 点 中 两 
条 连续 红 链 接 中 的 上 层 链接 向 右 旋转 ; 第 三 条 if 语句 会 进行 颜色 转换 并 将 红 链 接 在 树 中 向 上 传递 (详情 
请 见 正文 ) 。 








438| 
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标准 索引 测试 用 例 用 同一 组 键 按照 升序 插入 来 构造 一 棵 红 黑 树 
440 图 3.3.24 ” 红 黑 树 的 构造 轨迹 ( 另 见 彩 插 ) 
3.3.4 删除 操作 


算法 3.4 中 的 putQ 方法 是 本 书 中 最 复杂 的 实现 之 一 ， 而 红 黑 树 的 deleteMin()、delete- 
Max() 和 deleteQ 〇 的 实现 更 麻烦 ， 我 们 将 它们 的 完整 实现 留 做 练习 ， 但 这 里 仍然 需要 学 习 它们 的 
基本 原理 。 要 描述 删除 算法 ， 首 先 我 们 要 回 到 2-3 树 。 和 插入 操作 一 样 ， 我 们 也 可 以 定义 一 系列 局 
部 变换 来 在 删除 一 个 结 点 的 同时 保持 树 的 完美 平衡 性 。 这 个 过 程 比 插入 一 个 结 点 更 加 复杂 ， 因 为 我 
们 不 仅 要 在 (为 了 删除 一 个 结 点 而 ) 构造 临时 4- 结 点 时 沿 着 查找 路 径 向 下 进行 变换 ， 还 要 在 分 解 
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遗留 的 4- 结 点 时 沿 着 查找 路 径 向 上 进行 变换 ( 同 插入 操作 ) 。 
3.3.4.1 自 顶 向 下 的 2-34 树 

作为 第 一 轮 热身 ， 我 们 先 学 习 一 个 沿 查找 路 径 既 能 向 上 也 能 。 在 根 结 点 
向 下 进行 变换 的 稍 简单 的 算法 : 2-3-4 树 的 插入 算法 ，2-3-4 树 中 FE 二 
允许 存在 我 们 以 前 见 过 的 4- 结 点 。 它 的 插入 算法 沿 查找 路 径 向 下 
进行 变换 是 为 了 保证 当前 结 点 不 是 4- 结 点 ( 这 样 树 底 才 有 空间 来 
插入 新 的 键 ) ， 沿 查找 路 径 向 上 进行 变换 是 为 了 将 之 前 创建 的 4 fm i 
结 点 配 平 , 如 图 3.3.25 所 示 。 向 下 的 变换 和 我 们 在 2-3 树 中 分 解 4- 
结 点 所 进行 的 变换 完全 相同 。 如 果 根 结 点 是 4- 结 点 ， 我 们 就 将 它 全 — 
分 解 成 三 个 2- 结 点 ， 使 得 树 高 加 1。 在 向 下 查找 的 过 程 中 ， 如 果 
遇 到 一 个 父 结 点 为 2- 结 点 的 4- 结 点 , 我 们 将 4- 结 点 分 解 为 两 个 2- A i 
结 点 并 将 中 间 键 传递 给 它 的 父 结 点 , 使 得 父 结 点 变 为 一 个 3- 结 点 ; 

We 

4- 结 点 ; 我 们 不 必 担心 会 遇 到 父 结 点 为 4- 结 点 的 4- 结 点 ， 因 为 人 EG 
插入 算法 本 身 就 保证 了 这 种 情况 不 会 出 现 。 到 达 树 的 底部 之 后 ， 


如 果 过 到 一 个 父 结 点 为 3- 结 点 的 4- 结 点 ， 我 们 将 4- 结 点 分 解 为 
我 们 也 只 会 过 到 2- 结 点 或 者 3- 结 点 ,所 以 我 们 可 以 插入 新 的 键 。 。 在 树 度 


在 沿 查找 路 径 向 下 的 过 程 中 


两 个 2- 结 点 并 将 中 间 键 传递 给 它 的 父 结 点 ， 使 得 父 结 点 变 为 一 个 


要 用 红 黑 树 实现 这 个 算法 ， 我 们 需要 : 有 
口 将 4- 结 点 表示 为 由 三 个 2- 结 点 组 成 的 一 棵 平衡 的 于 树 ， 
根 结 点 和 两 个 子 结 点 都 用 红 链接 相连 a 
口 在 向 下 的 过 程 中 分 解 所 有 4- 结 点 并 进行 颜色 转换 ; i 
口 和 插入 操作 一 样 ,在 向 上 的 过 程 中 用 旋转 将 4- 结 点 配 平 ?。 的 插入 算法 中 的 变换 


令 人 惊讶 的 是 ， 你 只 需要 移动 算法 3.4 的 put 0 方法 中 的 一 行 代码 就 能 实现 2-3-4 树 中 的 插入 
操作 : 将 colorF1ipO 语句 (及 其 if 语句 ) 移动 到 递归 调用 之 前 (nu11 测试 和 比较 操作 之 间 ) 。 
在 多 个 进程 可 以 同时 访问 同一 棵 树 的 应 用 中 这 个 算法 优 于 2-3 树 ， 因 为 它 操 作 的 总 是 当前 结 点 的 一 
个 或 两 个 链接 。 我 们 下 面 要 讲 的 删除 算法 和 它 的 插入 算法 类 似 ， 而 且 也 适用 于 2-3 树 。 
3.3.4.2 ”删除 最 小 键 

在 第 二 轮 热身 中 我 们 要 学 习 2-3 树 中 删除 最 小 键 的 操作 。 我 们 注意 到 从 树 底部 的 3- 结 点 中 删除 
键 是 很 简单 的 ， 但 2- 结 点 则 不 然 。 从 2- 结 点 中 删除 一 个 键 会 留 下 一 个 空 结 点 ， 一 般 我 们 会 将 它 蔡 
换 为 一 个 空 链接 ， 但 这 样 会 破坏 树 的 完美 平衡 性 。 所 以 我 们 需要 这 样 做 : 为 了 保证 我 们 不 会 删除 一 
个 2- 结 点 ， 我 们 沿 着 左 链 接 向 下 进行 变换 ， 确 保 当前 结 点 不 是 2- 结 点 ( 可 能 是 3- 结 点 ， 也 可 能 是 
临时 的 4- 结 点 ) 。 首 先 ， 根 结 点 可 能 有 两 种 情况 。 如 果 根 是 2- 结 点 且 它 的 两 个 子 结 点 都 是 2- 结 点 ， 
我 们 可 以 直接 将 这 三 个 结 点 变 成 一 个 4- 结 点 ; 否则 我 们 需要 保证 根 结 点 的 左 子 结 点 不 是 2- 结 点 ， 
如 有 必要 可 以 从 它 右 侧 的 兄弟 结 点 “ 借 ”一 个 键 来 。 以 上 情况 如 图 3.3.26 所 示 。 在 沿 着 左 链接 向 下 
的 过 程 中 ， 保 证 以 下 情况 之 一 成 立 : 

口 如 果 当前 结 点 的 左 子 结 点 不 是 2- 结 点 ， 完 成 ; 

口 如 果 当前 结 点 的 左 子 结 点 是 2- 结 点 而 它 的 亲 兄弟 结 点 不 是 2- 结 点 ， 将 左 子 结 点 的 兄弟 结 点 

中 的 一 个 键 移动 到 左 子 结 点 中 ; 


外 因为 4- 结 点 可 以 存在 ， 所 以 可 以 允许 一 个 结 点 同时 连接 到 两 条 链接 。 一 一 译 者 注 
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口 如 果 当 前 结 点 的 左 子 结 点 和 它 的 亲 兄弟 结 点 都 在 根 结 点 
是 2- 结 点 ,将 左 子 结 点 、 父 结 点 中 的 最 小 键 Q 
和 左 于 结 点 最 近 的 兄弟 结 点 合并 为 一 个 4 结 GN 
点 ,使 父 结 点 由 3- 结 点 变 为 2- 结 点 或 者 由 4 
结 点 变 为 3- 结 点 。- 忆 、 
在 遍历 的 过 程 中 执行 这 个 过 程 ， 最 后 能 够 得 到 一 @ (Ca 
个 含有 最 小 键 的 3 结 点 或 者 4- 结 点 ， 然 后 我 们 就 可 
以 直接 从 中 将 其 删除 ， 将 3- 结 点 变 为 2- 结 点 ， 或 者 在 沿 左 链接 向 下 的 过 程 中 
将 4- 结 点 变 为 3- 结 点 。 然 后 我 们 再 回头 向 上 分 解 所 
_ 有 临时 的 4- 结 点 。 der 
3.3.4.3 删除 操作 。”” 一 Ss 
在 查找 路 径 上 进行 和 删除 最 小 键 相同 的 变换 同样 bae 
可 以 保证 在 查找 过 程 中 任意 当前 结 点 均 不 是 2- 结 点 。 ” @f 办 
如 果 被 查找 的 键 在 树 的 底部 ， 我 们 可 以 直接 删除 它 。 
如 果 不 在 ; 我 们 需要 将 它 和 它 的 后 继 结 点 交换 ， 就 和 在 树 放 
二 又 查找 树 一 样 。 因 为 当前 结 点 必然 不 是 2- 结 点 ， 问 5 一 
题 已 经 转化 为 在 一 棵 根 结 点 不 是 2- 结 点 的 子 树 中 删除 。 和 
最 小 的 键 ， 我 们 可 以 在 这 棵 子 树 中 使 用 前 文 所 述 的 算 。 。 ”图 3.3.26 删除 最 小 键 操作 中 的 变换 
法 。 和 以 前 一 样 ， 删 除 之 后 我 们 需要 向 上 回 漳 并 分 解 
余下 的 4- 结 点 。 
本 节 林 尾 的 练习 中 有 几 道 是 关于 这 些 删除 算法 的 例子 和 实现 的 。 有 兴趣 理解 或 实现 删除 算法 的 
读者 应 该 掌握 这 些 练习 中 的 细节 。 对 算法 研究 感 兴趣 的 读者 应 该 认识 到 这 些 方法 的 重要 性 ， 因 为 这 
442| 是 我 们 见 过 的 第 一 种 能 够 同时 实现 高 效 的 查找 、 插 入 和 删除 操 作 的 符号 表 实 现 。 下 面 我 们 将 会 验证 
443| 这 一 点 。 


3.3.5 ” 红 黑 树 的 性 质 


研究 红 黑 树 的 性 质 就 是 要 检查 对 应 的 2-3 树 并 对 相应 的 2-3 树 进行 分 析 的 过 程 。 我 们 的 最 终结 
论 是 所 有 基于 红 黑 树 的 符号 表 实 现 都 能 保证 操作 的 运行 时 间 为 对 数 级 别 ( 范围 查找 除外 ， 它 所 需 的 
额外 时 间 和 返回 的 键 的 数量 成 正比 ) 。 我 们 重复 并 强调 这 一 点 是 因为 它 十 分 重要 。 
3.3.5.1 性 能 分 析 

首先 ,无 论 键 的 插入 顺序 如 何 ， 红 黑 树 都 几乎 是 完美 平衡 的 (请 见 图 3.3.27) 。 这 从 它 和 2-3 
树 的 一 一 对 应 关系 以 及 2-3 树 的 重要 性 质 可 以 得 到 。 
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这 个 上 界 是 比较 保守 的 。 使 用 随机 的 键 序列 和 典型 应 用 中 常见 的 键 序列 进行 的 实验 都 证 明 ， 在 
一 棵 大 小 为 N 的 红 黑 树 中 一 次 查找 所 需 的 比较 次 数 约 为 ( 1.00lgN-0.5 ) 。 另 外 ， 在 实际 情况 下 你 不 
太 可 能 遇 到 比 这 个 数字 高 得 多 的 平均 比较 次 数 ， 如 表 3.3.1 所 示 。 


图 3.3.27 使 用 随机 键 构 造 的 典型 








， 没 有 画 出 空 链接 ( 另 见 彩 插 ) 444 











表 3.3.1 使 用 RedBlackBST 的 FrequencyCounter 的 每 次 put() 操作 平均 所 需 的 比较 次 数 














tale bd leipzig1M.txt 
比较 次 数 比较 次 数 
单词 数 | 不 同 单词 数 单词 数 | 不 同 单词 数 | 
模型 预测 | 实际 次 数 模型 预测 | 实际 次 数 
所 有 单词 135 635 4 21191455 19.1 
pre 14350 Y 4239 597 18.4 
人 于 等 于 10| 4 s82 。 1610829 | 165 555 173 














命题 H。 一 棵 大 小 为 N 的 红 黑 树 中 ， 根 结 点 到 任意 结 点 的 平均 路 径 长 度 为 ~ 1.00lgN。 


例证 。 和 典型 的 二 又 查找 树 ( 例如 表 3.2.1 中 所 示 的 树 ) 相 比 ， 一 棵 典型 的 红 黑 树 的 平衡 性 是 
很 好 的 ， 例 如 图 3.3.27 所 示 ( 甚至 是 图 3.3.28 中 由 升序 键 列 构 造 的 红 黑 树 ) 。 表 3.3.1 显示 的 
数据 表明 FrequencyCounter 在 运行 中 构造 的 红 黑 树 的 路 径 长 度 ( 即 查找 成 本 ) 比 初等 二 又 


查找 树 低 40% 左右 ， 和 预期 相符 。 自 红 黑 树 的 发 明 以 来 ， 无 数 的 实验 和 实际 应 用 都 印证 了 这 
种 性 能 改进 。 


以 使 用 FrequencyCounter 在 处 理 长 度 大 于 等 于 8 的 单词 时 put() 操作 的 成 本 为 例 ， 我 们 可 
以 看 到 平均 成 本 降低 得 更 多 ( 如 图 3.3.29 所 示 ) 。 这 又 一 次 验证 了 理论 模型 所 预测 的 对 数 级 别 的 运 
行 时 间 ， 只 不 过 这 次 的 惊喜 比 二 叉 查 找 树 的 小 ， 因 为 性 质 G 已 经 向 我 们 保证 了 这 一 点 。 节 约 的 总 成 
本 低 于 在 查找 上 节约 的 40% 的 成 本 ， 因 为 除了 比较 我 们 也 统计 了 旋转 和 颜色 变换 的 次 数 。 
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图 3.3.28 使 用 升序 键 列 构造 的 一 棵 红 黑 树 ， 没 有 画 出 空 链接 ( 另 见 彩 插 ) 


20: 








二 yn 
0 操作 14350 


图 3.3.29 使 用 RedB1ackBST， 运 行 java FrequencyCounter 8 < rale.txt 的 成 本 


红 黑 树 的 get() 方法 不 会 检查 结 点 的 颜色 ， 因 此 平衡 性 相关 的 操作 不 会 产生 任何 负担 ;因为 树 
是 平衡 的 ， 所 以 查找 比 二 叉 查找 树 更 快 。 每 个 键 只 会 被 插入 一 次 ， 但 却 可 能 被 查找 无 数 次 ， 因 此 最 
后 我 们 只 用 了 很 小 的 代价 ( 和 二 分 查找 不 同 ， 我 们 可 以 保证 插入 操作 是 对 数 级 别 的 ) 就 取得 了 和 最 
优 情况 近似 的 查找 时 间 ( 因为 树 是 接近 完美 平衡 的 ， 且 查找 过 程 中 不 会 进行 任何 平衡 性 的 操作 ) 。 
查找 的 内 循环 只 会 进行 一 次 比较 并 更 新 一 条 链接 ， 非 常 简短 ， 和 二 分 查找 的 内 循环 类 似 (只 有 比较 
和 索引 运算 ) 。 这 是 我 们 见 到 的 第 一 个 能 够 保证 对 数 级 别 的 查找 和 插入 操作 的 实现 ， 它 的 内 循环 更 
紧凑 。 它 通过 了 各 种 应 用 的 考验 ,包括 许多 库 实现 。 
3.3.5.2 ”有 序 符号 表 API 

红 黑 树 最 吸引 人 的 一 点 是 它 的 实现 中 最 复杂 的 代码 仅 限于 put ()( 和 删除 ) 方法 。 二 又 查找 树 
中 的 查找 最 大 和 最 小 键 、select()、rank()、floor()、ceiling() 和 范围 查找 方法 不 做 任何 变 
动 即 可 继续 使 用 ， 因 为 红 黑 树 也 是 二 叉 查找 树 而 这 些 操作 也 不 会 涉及 结 点 的 颜色 。 算 法 3.4 和 这 些 
方法 ( 以 及 删除 方法 ) 一 起 完整 地 实现 了 我 们 的 有 序 符号 表 API。 这 些 方法 都 能 从 红 黑 树 近乎 完美 
的 平衡 性 中 受益 ， 因 为 它们 最 多 所 需 的 时 间 都 和 树 高 成 正比 。 因 此 命题 G 和 命题 E ld 
有 操作 的 运行 时 间 是 对 数 级 别 的 。 





3.3 平衡 查找 树 号 287 





各 种 符号 表 实现 的 性 能 总 结 如 表 3.3.2 所 示 。 
表 3.3.2 各 种 符号 表 实现 的 性 能 总 结 






是 否 支持 有 序 性 
相关 的 操作 







算法 数据 结构 ) 











顺序 查询 ( 无 序 链表 ) 
二 分 查找 ( 有 序数 组 ) 
二 叉 树 查找 (BST ) 


部 站 部 出 





2-3 树 查 找 ( 红 黑 树 ) 


想 想 看 ， 这 样 的 保证 是 一 个 非凡 的 成 就 。 在 信息 世界 的 汪洋 大 海中 ， 表 的 大 小 可 能 上 千 亿 ， 但 
我 们 仍 能 够 确保 在 几 十 次 比较 之 内 就 完成 这 些 操作 。 [447 

















为 什么 不 允许 存在 红色 右 链接 和 4- 结 点 ? 

它们 都 是 可 用 的 ， 并 且 已 经 应 用 了 几 十 年 了 。 在 练习 中 你 会 遇 到 它们 。 只 允许 红色 左 链接 的 存在 能 

够 减少 可 能 出 现 的 情况 ， 因 此 实现 所 需 的 代码 会 少 得 多 。 

为 什么 不 在 Node 类 型 中 使 用 一 个 Key 类 型 的 数组 来 表示 2- 结 点 、3- 结 点 和 4- 结 点 ? 

问 得 好 。 这 正 是 我 们 在 B- 树 ( 请 见 第 6 章 ) 的 实现 中 使 用 的 方案 ， 它 的 每 个 结 点 中 可 以 保存 更 多 的 

键 。 因 为 2-3 树 中 的 结 点 较 少 ， 数 组 所 带 来 的 额外 开销 太 高 了 。 

问 在 分 解 一 个 4- 结 点 时 ， 我 们 有 时 会 在 rotateRight( 中 将 右 结 点 的 颜色 设 为 RED ( 红 ) 然后 立即 在 
人 ipColorsQ 中 将 它 的 颜色 变 为 BLACK ( 黑 ) 。 这 不 是 浪费 时 间 吗 ? 

答 是 的 ， 有 时 我 们 还 会 不 必要 地 反复 改变 中 结 点 的 颜色 。 从 整体 来 看 ， 多 余 的 用 次 颜色 变换 和 将 所 有 

方法 的 运行 时 间 的 增长 数量 级 从 线性 级 别提 升 到 对 数 级 别 不 是 一 个 级 别 的 。 当 然 ， 在 有 性 能 要 求 的 

应 用 中 ,你 可 以 将 rotateRight() 和 flipColors() 的 代码 在 所 需要 的 地 方 展开 来 消除 那些 额外 的 

开销 。 我们 在 删除 中 也 会 使 用 这 两 个 方法 。 在 能 够 保证 树 的 完美 平衡 的 前 提 下 ,它们 更 加 容易 使 用 、 
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理解 和 维护 。 448 
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3.3.17 


3.3.18 
3.3.19 


将 键 E A S Y Q UT I 0 N 按 顺序 插入 一 棵 空 2-3 树 并 画 出 结果 。 





将 键 Y L P MX HC R A E 5S 按 顺序 插入 一 棵 空 2-3 树 并 画 出 结果 。 
使 用 什么 顺序 插入 键 S E A C H X M 能 够 得 到 一 棵 高 度 为 1 的 2-3 树 ? 
证 明 含有 N 个 键 的 2-3 树 的 高 度 在 -log3Nj 即 0.63lgN ( 树 完全 由 3- 结 
点 组 成 ) 和 -LIgN| ( 树 完全 由 2- 结 点 组 成 ) 之 间 。 上 
右 图 显示 了 N=1 到 6 之 间 大 小 为 N 的 所 有 不 同 的 2-3 树 ( 无 先后 次 序 ) 。 
请 画 出 N=7、8、9 和 10 的 大 小 为 ,W 的 所 有 不 同 的 2-3 树 。 

计算 用 N 个 随机 键 构造 练习 3.3.5 中 每 棵 23 笠 的 概率 。 

以 图 3:3.8 为 例 为 图 中 的 其 他 5 种 情况 画 出 相应 的 示意 图 。 

画 出 使 用 三 个 2- 结 点 和 红 链 接 一 起 表示 一 个 4- 结 点 的 所 有 可 能 方法 (不 
一 定 只 能 使 用 红色 左 链接 ) 。 

下 图 中 哪些 是 红 黑 树 ( 粗 的 链接 为 红色 ) ? “ 


六 


的 
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将 含有 键 E A.S Y Q UT I 0 N 的 结 点 按 顺 序 插 人 一 襟 空 红 黑 树 并 画 出 结果 。 

将 含有 键 Y L P MX H C R A E 5 的 结 点 按 顺序 插 人 一 棵 空 红 黑 树 并 夯 出 结果 。 
在 我 们 的 标准 索引 测试 用 例 中 插 人 键 P 并 夯 出 插入 的 过 程 中 每 次 变换 ( 颜色 转换 或 是 旋转 ) 后 
的 红 黑 树 。 

真 假 判断 :如 果 你 按照 升序 将 键 顺序 插入 一 棵 红 黑 树 中 ， 树 的 高 度 是 单调 递增 的 。 

用 字母 A 到 K 按 顺序 构造 一 棵 红 黑 树 并 画 出 结果 ， 然 后 大 致 说 明 在 按照 升序 插入 键 来 构造 一 棵 
红 黑 树 的 过 程 中 发 生 了 什么 (可 以 参考 正文 中 
的 图 例 ) 。 了 

在 键 按照 降序 插入 红 黑 树 的 情况 下 重新 回答 
上 面 两 道 练习 。 

向 右 图 所 示 的 红 黑 树 (黑色 加 粗 部 分 的 链接 为 
红色 ) 中 插入 n 并 夯 出 结果 ( 图 中 只 显示 了 
插入 时 的 查找 路 径 , :你 的 解答 中 只 需 包含 这 些 
结 点 即 可 ) 。 
随机 生成 两 棵 均 含有 16 个 结 点 的 红 黑 树 。 画 。 
出 它们 (手绘 或 者 代码 绘制 均 可 ) 并 将 它们 和 
使 用 同一 组 键 构造 的 ( 非 平衡 的 ) 二 叉 查 找 树 
进行 比较 。 

对 于 2 到 10 之 间 的 N， 画 出 所 有 大 小 为 N 的 不 同 红 黑 树 ( 请 参考 练习 3.3.5 ) 。 

每 个 结 点 只 需要 1 位 来 保存 结 点 的 颜色 即 可 表示 2- 结 点 、3- 结 点 和 4- 结 点 。 使 用 二 叉 树 ,我 们 
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在 每 个 结 点 需要 几 位 信息 才能 表示 5- 结 点 、6- 结 点 、7- 结 点 和 8- 结 点 ? 

计算 一 棵 大 小 为 Y 且 完美 平衡 的 二 叉 查找 树 的 内 部 路 径 长 度 ， 其 中 X 为 2 的 寡 减 1。 
基于 你 为 练习 3.2.10 给 出 的 答案 编写 一 个 测试 用 例 TestRBjava。 

找 出 一 组 键 的 序列 使 得 用 它 顺序 构造 的 二 叉 查 找 树 比 用 它 顺 序 构造 的 红 黑 树 的 高 度 更 低 ， 或 者 
证 明 这 样 的 序列 不 在 在 。 





树 
中 的 3- 结 点 中 的 红 链 接 可 以 左 斜 也 可 以 右 斜 。 树 底部 的 3- 结 点 和 新 结 点 通过 黑色 链接 相连 。 实 
验 并 估计 随机 构造 的 这 样 一 棵 大 小 为 的 树 的 平均 路 径 长 度 。 

红 黑 树 的 最 坏 情况 。 找 出 如 何 构造 一 棵 大 小 为 N 的 最 差 红 黑 树 ， 其 中 从 根 结 点 到 几乎 所 有 空 链 
接 的 路 径 长 度 均 为 2lgN。 

自 顶 向 下 的 2-3-4 树 。 使 用 平衡 2-3-4 树 作为 数据 结构 实现 符号 表 的 基本 API。 在 树 的 表示 中 使 
用 红 黑 链接 并 实现 正文 所 述 的 插入 算法 ,其 中 在 沿 查找 路 径 向 下 的 过 程 中 分 解 4- 结 点 并 进行 颜 
色 转 换 ， 在 回 湖 向 上 的 过 程 中 将 4- 结 点 配 平 。 

自 项 向 下 一 遍 完 成 修改 你 为 练习 3.3.25 给 出 的 答案 ,不 使 用 递归 。 在 沿 查找 路 径 向 下 的 过 程 
中 分 解 并 平衡 4- 结 点 (以 及 3- 结 点 ) ., ,最 后 在 树 底 插入 新 键 即 可 。 

允许 红色 右 链接 。 修 改 你 为 练习 3.3.25 给 出 的 答案 ， 允 许 红色 右 链 接 的 存在 。 

自 底 向 上 的 2-3-4 树 。 使 用 平衡 2-3-4 树 作为 数据 结构 实现 符号 表 的 基本 API。 在 树 的 表示 中 使 
用 红 黑 链接 并 用 和 算法 3.4 相同 的 递归 方式 实现 自 底 向 上 的 插入 。 你 的 插入 方法 应 该 只 需要 分 解 
查找 路 径 底部 的 4- 结 点 ( 如 果 有 的 话 ) *: 

最 优 存储 。 修 改 RedB1ackBST 的 实现 ,用 下 面 的 技巧 实现 无 需 为 结 点 颜色 的 存储 使 用 额外 的 空间 : 
要 将 结 点 标记 为 红色 ， 只 需 交 换 它 的 左右 链接 。 要 检测 一 个 结 点 是 否 是 红色 ， 检 测 它 的 左 子 结 
点 是 否 大 于 它 的 右 子 结 点 。 你 需要 修改 一 些 比较 语句 来 适应 链接 的 交换 。 这 个 技巧 将 变量 的 比 
较 变 成 了 键 的 比较 ， 显 然 成 本 会 更 高 ， 但 它 说 明 在 需要 的 情况 下 这 个 变量 是 可 以 被 删 掉 的 。 
缓存 。 修 改 RedB1ackBST 的 实现 ， 将 最 近 访问 的 结 点 Node 保存 在 一 个 变量 中 ， 这 样 get() 或 
put 在 再 次 访问 同一 个 键 时 就 只 需要 常数 时 间 了 ( 请 参考 练习 3.1.25 ) 。 

树 的 绘制 。 为 RedBlackBST 添加 一 个 draw() 方法 ， 像 正文 一 样 绘制 出 红 黑 树 。 

AVL 树 。AVL 树 是 一 种 二 叉 查找 树 ， 其 中 任意 结 点 的 两 棵 子 树 的 高 度 最 多 相差 1 ( 最 早 的 平衡 
树 算法 就 是 基于 使 用 旋转 保持 AVL 树 中 子 树 高 度 的 平衡 ) 。 证 明 将 其 中 由 高 度 为 偶数 的 结 点 指 
向 高 度 为 奇数 的 结 点 的 链接 设 为 红色 就 可 以 得 到 一 棵 ( 完美 平衡 的 ) 2-3-4 树 ， 其 中 红色 链接 可 
以 是 右 链接 。 附 加 题 : 使 用 AVL 树 作为 数据 结构 实现 符号 表 的 API。 一 种 方法 是 在 每 个 结 点 中 
保存 它 的 高 度 并 在 递归 调用 后 使 用 旋转 来 根据 需要 调整 这 个 高 度 ， 另 一 种 方法 是 在 树 的 表示 中 
使 用 红 黑 链接 并 使 用 类 似 练习 3.3.39 和 练习 3.3.40 的 moveRedLeft() 和 moveRedRightC 的 
方法 。 Ce = 

验证 。 为 RedB1ackBST 实现 一 个 is23(0): 方 法 来 检查 是 否 存在 同时 和 两 条 红 链 接 相连 的 结 点 和 
红色 右 链接 ， 以 及 一 个 isBalancedG 方法 来 检查 从 根 结 点 到 所 有 空 链接 的 路 径 上 的 黑 链接 的 数 
量 是 否 相 同 。 将 这 两 个 方法 和 练习 3.2.32 的 isBSTC 方法 结合 起 来 实现 一 个 isRedBlackBST() 
来 检查 一 棵 树 是 否 是 红 黑 树 。 
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3.3.34 ”所 有 的 2-3 树 。 编 写 一 段 代码 来 生成 高 度 为 2、3 和 4 的 所 有 结构 不 同 的 2-3 树 ， 分 别 共 有 2、7 
和 122 种 (提示: 使 用 符号 表 ) 。 

3.3.35 ”2-3 树 。 编 写 一 段 程序 TwoThreeSTjava， 使 用 两 种 结 点 类 型 来 直接 表示 和 实现 2-3 查找 树 。 

3.3.36 2-3-4-5-6-7-8 树 。 说 明 平 衡 的 2-3-4-5-6-7-8 树 中 的 查找 和 插入 算法 。 

3.3.37 无 记忆 性 。 请 证 明 红 黑 树 不 是 没有 记忆 的 。 例 如 ， 如 果 你 向 树 中 插入 一 个 小 于 所 有 键 的 新 键 ， 
然后 立即 删除 树 的 最 小 键 ， 你 可 能 得 到 一 棵 不 同 的 树 。 

3.3.38 旋转 的 基础 定理 。 请 证 明 ， 使 用 一 系列 左旋 转 或 者 右 旋 转 可 以 将 一 棵 二 叉 查 找 树 转化 为 由 同一 

452 组 键 生成 的 其 他 任意 一 棵 二 叉 查 找 树 。 

3.3.39 删除 最 小 键 。 实 现 红 黑 树 的 deleteMin() 方法 ， 在 沿 着 树 的 最 左 路 径 向 下 的 过 程 中 实现 正文 所 

述 的 变换 ， 保 证 当前 结 点 不 是 2- 结 点 。 


解答 : 


private Node moveRedLeft(Node h) 

{。 // 假设 站 点 hh 为 红色 ，h.1eft 和 hh.1eft.1eft 都 是 黑色 ， 
// 将 h.1eft 或 者 h.1eft 的 子 结 点 之 一 变 红 
flipColors(h); 
if (isRed(Ch.right. left)) 














h.right = rotateRightCh.right); 
h = rotateLeft(h); 


return h; 
} 
public void deleteMin() 
{ 


if (lisRed(root. left) && !isRed(root.right)) 
root.color = RED; 

root = deleteMin(root); 

if (lisEmpty()) root.color = BLACK; 


} 
private Node deleteMin(Node h) 
{ 
if (h.left == nul1) 
return null; 
if (lisRed(h.left) && !isRed(h.left.left)) 
h = moveRedLeft(h); 
h.left = deleteMin(Ch. left); 
return balance(h); 


其 中 的 balanceQ 方法 由 下 一 行 代 码 和 算法 3.4 的 递归 put0 方法 中 的 最 后 5 行 代码 组 成 : 


453 if (isRed(h.right)) h = rotateLeft(h); 
这 里 的 flipColors() 方法 将 会 补 全 三 条 链接 的 颜色 ， 而 不 是 正文 中 实现 插入 操作 时 实现 的 
flipColors( 方法 。 对 于 删除 , 我 们 会 将 父 结 点 设 为 BLACK( 黑 ) 而 将 两 个 子 结 点 设 为 RED( 红 )。 

3.3.40 删除 最 大 键 。 实 现 红 黑 树 的 deleteMax() 方法 。 需 要 注意 的 是 因为 红 链接 都 是 左 链接 ， 所 以 这 
里 用 到 的 变换 和 上 一 道 练习 中 的 稍 有 不 同 。 
解答 : 
private Node moveRedRight(Node h) 
{ // 假设 结 点 h 为 红色 ，h.right 和 h.right.1eft 都 是 黑色 ， 


// 将 h.right 或 者 h.right 的 子 结 点 之 一 变 红 
flipColors(h) 
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if (!isRed(h. left.1left)) 
h = rotateRight(h); 
return h; 


. 
public void deleteMax() 





{ 
if (!isRed(root.left) && !isRed(root.right)) 
root.color = RED; 
root = deleteMax(root); 
if (lisEmptyO) root.color = BLACK; 
} 
private Node deleteMax(Node h) 
{ 
if (isRed(h.left)) 
h = rotateRight(h); 
if (h.right == nu11) 
return null; 
if (lisRed(h.right) && !isRed(h.right.1left)) 
h = moveRedRight(h); 
h.right = deleteMax(h.right); 
return balance(h); 
} 
3.3.41 删除 操作 。 将 上 两 题 中 的 方法 和 二 叉 查找 树 的 delete() 方法 结合 起 来 ,实现 红 黑 树 的 删除 操作 。 
解答 : 


public void delete(Key key) 
{ 


if (lisRed(root. left) && !isRed(root.right)) 
root.color = RED; 
root = delete(root, key); 
if (lisEmpty()) root.color = BLACK; 
} 
private Node delete(Node h, Key key) 
{ 


if (key.compareTo(h.key) < 0) 
{ 


if (lisRed(h. left) && !isRedCh. left.1left)) 
h = moveRedLeft(h); 
h.left = delete(h.left, key); 
} 
else 
{ 
if (isRed(h. left)) 
h = rotateRight(h); 
if (key.compareTo(h.key) == 0 && (h.right == nu11)) 
return null; 
if (lisRed(h.right) && !isRedCh.right.left)) 
h = moveRedRight(h) ; 
if (key.compareTo(h.key) == 0) 
{ 


h.val = get(h.right, min(h.right).key); 
h.key = minCh.right) .key; 
h.right = deleteMinCh.right); 


} 
else h.right = delete(h. right, key); 
区 
return balance(h); 
} 
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找 一 = 





统计 红色 结 点 。 编 写 一 段 程序 ， 统 计 给 定 的 红 黑 树 中 红色 结 点 所 占 的 比例 。 对 于 N=10:、10 和 
10“， 用 你 的 程序 统计 至 少 100 村 随 机 构造 的 大 小 为 N 的 红 黑 树 并 得 出 一 个 猜想 。 

成 本 图 。 改造 RedB1ackBST 的 实现 来 绘制 本 节 中 能 够 显示 计算 中 每 次 putQ 操作 的 成 本 的 图 (请 
参考 练习 3.1.38 ) 。 SR 二 

平均 查找 用 时 。 用 实验 研究 和 计算 在 一 棵 田 个 随机 结 点 构造 的 红 黑 树 中 到 达 一 个 随机 结 点 的 
平均 路 径 长 度 ( 内 部 路 径 长 度 除 以 NN 再 加 1 ) 的 平均 差 和 标准 差 ， 对 于 ! 到 10 000 之 间 的 每 个 
NN 至 少 重复 实验 1000 遍 。 将 结果 绘制 成 和 图 3.3.30 相似 的 Tufte 图 ， 并 画 上 函数 lgN-0.5 的 曲线 。 
统计 旋转 。 改 进 你 为 练习 3.3.43 给 出 的 程序 ， 用 图 像 绘 制 出 在 构造 红 黑 树 的 过 程 中 旋转 和 分 解 
结 点 的 次 数 并 讨论 结果 。 “= 

红 黑 树 的 高 度 。 改 进 你 为 练习 3.3.43 给 出 的 程序 ， 用 图 像 绘制 出 所 有 红 黑 树 的 高 度 并 讨论 结果 。 








me lt 
操作 10 000 


图 3.3.30 ”随机 构造 的 红 黑 树 中 到 达 一 个 随机 结 点 的 平均 路 径 长 度 ( 另 见 彩 插 ) 
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3.4 散 列表 


如 果 所 有 的 键 都 是 小 整数 ， 我 们 可 以 用 一 个 数组 来 实现 无 序 的 符号 表 ， 将 键 作为 数组 的 索引 而 
数组 中 键 ;处 储存 的 就 是 它 对 应 的 值 。 这 样 我 们 就 可 以 快速 访问 任意 键 的 值 。 在 本 节 中 我 们 将 要 学 
习 散 列 表 。 它 是 这 种 简易 方法 的 扩展 并 能 够 处 理 更 加 复杂 的 类 型 的 键 。 我 们 需要 用 算术 操作 将 键 转 
化 为 数组 的 索引 来 访问 数组 中 的 键 值 对 。 

使 用 散 列 的 查找 算法 分 为 两 步 。 第 一 步 是 用 孝 列 函数 将 被 查找 的 键 转化 为 数组 的 一 个 索引 。 理 
想 情况 下 ， 不 同 的 键 痢 能 转化 为 不 同 的 索引 值 。 当 然 ， 这 只 是 理想 情况 ， 所 以 我 们 需要 面 对 两 个 或 
者 多 个 键 者 会 散 列 到 相同 的 索引 值 的 情况 。 因 此 ， 散 列 查找 的 第 二 步 就 是 一 个 处 理 碰撞 冲突 的 过 程 
如 图 3.4.1 所 示 。 在 描述 了 多 种 散 列 函数 的 计算 后 ， 我 们 会 学 习 
两 种 解决 碰 擅 的 方法 : 拉链 法 和 线性 探测 法 。 

散 列表 是 算法 在 时 间 和 空间 上 作出 权 生 的 经 典 例子 。 如 果 没 
有 内 存 限制 ， 我 们 可 以 直接 将 键 作为 可 能 是 一 个 超大 的 ) 数组 的 
索引 ， 那 么 所 有 查找 操作 只 需要 访问 内 存 一 次 即 可 完成 。 但 这 种 理 
想 情 况 不 会 经 常 出 现 , 因为 当 键 很 多 时 需要 的 内 存 太 大 。 另 一 方面 
如 果 没 有 时 间 限制 ， 我 们 可 以 使 用 无 序数 组 并 进行 顺序 查找 ， 这 样 
就 只 需要 很 少 的 内 存 。 而 散 列表 则 使 用 了 适度 的 空间 和 时 间 并 在 这 
两 个 极端 之 间 找 到 了 一 种 平衡。 事实 上 ， 我 们 不 必 重 写 代码 ， 只 需 
要 调整 散 列 算法 的 参数 就 可 以 在 空间 和 时 间 之 间作 出 取舍。 我 们 会 
使 用 概率 论 的 经 典 结论 来 帮助 我 们 选择 适当 的 参数 。 

概率 论 是 数学 分 析 的 重大 成 果 。 虽 然 它 不 在 本 书 的 讨论 范围 
之 内 ， 但 我 们 将 要 学 习 的 散 列 算法 利用 了 这 些 知识 ， 这 些 算法 虽然 
简单 但 应 用 广泛 。 使 用 散 列表 ， 你 可 以 实现 在 一 般 应 用 中 拥有 ( 均 
捧 后 ) 常数 级 列 的 查找 和 插入 操作 的 符号 表 。 这 使 得 它 在 很 多 情况 。。 图 3.41 散 列表 的 核心 问题 
下 成 为 实现 简单 符号 表 的 最 佳 选择 。 


3.4.1 散 列 函数 

我 们 面 对 的 第 一 个 问题 就 是 散 列 函数 的 计算 ， 这 个 过 程 会 将 键 转化 为 数组 的 索引 。 如 果 我 们 有 
一 个 能 够 保存 M 个 键 值 对 的 数组 ,那么 我 们 就 需要 一 个 能 够 将 任意 键 转化 为 该 数组 范围 内 的 索引 ( [0， 
M-1] 范围 内 的 整数 ) 的 散 列 函数 。 我 们 要 找 的 散 列 函数 应 该 易于 计算 并 且 能 够 均匀 分 布 所 有 的 键 ， 
即 对 于 任意 键 ，0 到 M-1 之 间 的 每 个 整数 都 有 相等 的 可 能 性 与 之 对 应 (与 键 无 关 ) 。 这 个 要 求 似乎 
有 些 难以 理解 。 那 么 要 理解 散 列 ， 就 首先 要 仔细 思考 如 何 去 实 现 这 样 一 个 函数 。 

散 列 函数 和 键 的 类 型 有 关 。 严 格 地 说 ， 对 于 每 种 类 型 的 键 都 我 们 都 需要 一 个 与 之 对 应 的 散 列 函 
数 。 如 果 键 是 一 个 数 ， 比 如 社会 保险 号 ， 我 们 就 可 以 直接 使 用 这 个 数 ; 如 果 键 是 一 个 字符 串 ， 比 如 
一 个 人 的 名 字 ， 我 们 就 需要 将 这 个 字符 串 转化 为 一 个 数 ， 如 果 键 含有 多 个 部 分 ， 比 如 邮件 地 址 ， 我 
们 需要 用 某 种 方法 将 这 些 部 分 结合 起 来 。 对 于 许多 常见 类 型 的 键 ， 我 们 可 以 利用 Java 提供 的 默认 实 
现 。 我 们 会 简略 讨论 多 种 数据 类 型 的 散 列 函数 。 你 应 该 看 看 它们 是 如 何 实现 的 ， 因 为 你 也 需要 为 自 
定义 的 类 型 实现 散 列 函 数 。 
3.4.1.1 典型 的 例子 

假设 在 我 们 的 应 用 中 ， 键 是 美国 的 社会 保险 号 。 一 个 社会 保险 号 含有 9 位 数字 并 被 分 为 三 个 部 
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分 ， 例 如 123-45-6789。 第 一 组 数字 表示 该 号 码 签发 的 地 区 ( 例如 , 第 一 键 。。” 获 列 值 。 艇 列 什 
组 号 码 为 035 的 社会 保险 号 来 自 罗 得 岛 州 ，214 则 来 自 马里 兰州 ) ， 另 两 
组 数字 表示 个 人 身份 。 社 会 保险 号 共有 10 亿 (10? ) 个 ， 但 假设 我 们 的 应 618 。 -18 36 
用 程序 只 需要 处 理 几 百 个 ,我 们 可 以 使 用 一 个 大 小 M=1000 的 散 列表 。 散 。 302 2 1 
列 函 数 的 一 种 实现 方法 是 使 用 键 (社会 保险 号 ) 中 的 三 个 数字 。 用 第 三 940 “0 ps 
组 中 的 三 个 数字 似乎 比 用 第 一 组 中 的 三 个 数字 更 好 ( 因为 我 们 的 客户 不 。 704 4 25 
太 可 能 完全 平均 地 分 布 在 各 个 地 区 ) ， 但 下 面 会 讲 到 ， 更 好 的 方法 是 用 612 亚 30 
所 有 9 个 数字 得 到 一 个 整数 ， 然 后 再 考虑 整数 的 散 列 函数 。 NS 
3.4.1.2 - 正 整数 - 510 -10 25 

将 整数 散 列 最 常用 方法 是 除 留 余数 法 。 我们 计 拉 大 小 为 数 4 的 数组 ， ss 35 
对 于 任意 正 整 数 ， 计 算 k 除 以 M 的 余数 。 这 个 函数 的 计算 非常 容易 (在 3 2 2 
Java 中 为 k%M ) 并 能 够 有 效 地 将 键 散布 在 0 到 M-1 的 范围 内 。 如 果 M 不 。 9%o7 7 34 
是 素数 ， 我 们 可 能 无 法 利用 键 中 包含 的 所 有 信息 ,这 可 能 导致 我 们 无 法 均 。 507 x 
匀 地 散 列 散 列 值 。 例 如 ， 如 果 键 是 十 进 制 数 而 M 为 10'， 那 么 我 们 只 能 利 “794 1 沪 
用 键 的 后 上 位 ， 这 可 能 会 产生 一 些 问 题 。 举 个 简单 的 例子 ， 假 设 键 为 电话 857 57 81 
号 码 的 区 号 且 M=100。 由 于 历史 原因 ， 美国 的 大 部 分 区 号 中 间 位 都 是 0 或 。 801 pe 
者 1， 因 此 这 种 方法 会 将 大 量 的 键 散 列 为 小 于 20 的 索引 ， 但 如 果 使 用 素数 43 13 2 
97， 散 列 值 的 分 布 显然 会 更 好 ( 一 个 离 100 更 远 的 素数 会 更 好 ) ， 如 右 侧 。 701 1 22 
所 示 。 与 之 类 似 ， 互 联网 中 使 用 的 瑟 地址 也 不 是 随机 的 ， 所 以 如 果 我 们 想 48 18 30 
用 除 留 余数 法 将 其 散 列 就 需要 用 素数 (2 的 寡 除 外 ) 大 小 的 数组 。 
3.4.1.3 浮 点 数 除 留 余 数 法 

如 果 键 是 0 到 1 之 间 的 实数 , 我 们 可 以 将 它 乘 以 M 并 四 舍 五 人 得 到 一 个 0 至 M-1 之 间 的 索引 值 。 
尽管 这 个 方法 很 容易 理解 ， 但 它 是 有 缺陷 的 ， 因 为 这 种 情况 下 键 的 高 位 起 的 作用 更 大 ， 最 低位 对 散 
列 的 结果 没有 影响 。 修正 这 个 问题 的 办 法 是 将 键 表示 为 二 进 制 数 然后 再 使 用 除 留 余数 法 (Java 就 是 





这 么 做 的 ) 。 
3.4.1.4 字符 串 
除 留 余数 法 也 可 以 处 理 较 长 的 下 ,大 
n =0; 
键 ， 例 如 字符 串 ， 我 们 只 需 将 它们 当 for Cint 1 = 0; 1 < siengthO; 144) 
作 大 整数 即 可 。 例 如 ， 右 侧 的 代码 就 hash = (R * hash + s.charAt(i)) % M; 
F 计算 String S 
wen 


Java 的 charAt() 函数 能 够 返回 一 个 char 值 ， 即 一 个 非 负 16 位 整数 。 如 果 R 比 任何 字符 的 值 都 
大 ， 这 种 计算 相当 于 将 字符 串 当 作 一 个 N 位 的 R 进 制 值 ， 将 它 除 以 MM 并 取 余 。 一 种 叫 Homer 方法 的 
经 典 算法 用 N 次 乘法 、 加 法 和 取 余 来 计算 一 个 字符 串 的 散 列 值 。 只 要 R 足够 小 ， 不 造成 溢出 ， 那 么 结 
果 就 能 够 如 我 们 所 愿 ， 落 在 0 至 M-1 之 内 。 使 用 一 个 较 小 的 素数 ， 例 如 31， 可 以 保证 字符 串 中 的 所 
有 字符 都 能 发 挥 作用 。Java 的 String 的 默认 实现 使 用 了 一 个 类 似 的 方法 。 

… 3.4.1.5 组 合 键 

如 果 键 的 类型 含有 多 个 整 到 大 我 们 可 以 和 String 类 型 一 样 将 它们 混合 起 来 。 例 如 ， 

假设 被 查找 的 键 的 类 型 是 Date， 其 中 含有 几 个 整 型 的 域 ，day ( 两 个 数字 表示 的 日 ) ，month 
(两 个 数字 表示 的 月 ) 和 year (4 个 数字 表示 的 年 ) 。 我 们 可 以 这 样 计算 它 的 散 列 值 : 
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int hash = (((day * R + month) % M * R+year) % Mi 

只 要 RR 足够 小 不 造成 溢出 ,也 可 以 表 3.4.1 所 有 例子 中 的 键 的 散 列 什 
得 到 一 个 0 至 M-I 之 则 的 散 列 值 。 在 
这 种 情况 下 我 们 可 以 通过 选择 一 个 适当 各 SE Dr 
的 册 :比如 31， 来 省 去 括号 内 的 %M 计 M92.0.054 .4.4 2 4 3.3 
算 。 和 字符 串 的 散 列 算法 一 样 ， 这 个 方 艇 列 值 M=16) 6 10 4 14 5 4 15 1 14 6 
法 也 能 处 理 有 任意 多 整 型 变量 的 类 型 。 
3.4.1.6 ”Java 的 约定 

每 种 数据 类 型 都 需要 相应 的 散 列 函数 ， 于 是 Java 令 所 有 数据 类 型 都 继承 了 一 个 能 够 返回 一 个 
32 位 整数 的 hashCodeQ 方法 。 每 一 种 数据 类 型 的 hashCode() 方法 都 必须 和 equa1s() 方法 一 
致 。 也 就 是 说 ， 如 果 a.equals(b) 返回 true， 那 么 a.hashCode() 的 返回 值 必然 和 b.hashCode() 
的 返回 值 相同 。 相 反 ， 如 果 两 个 对 象 的 hashCcode() 方法 的 返回 值 不 同 ， 那 么 我 们 就 知道 这 两 个 
对 象 是 不 同 的 。: 但 如 果 两 个 对 象 的 hashCode() 方法 的 返回 值 相同 ， 这 两 个 对 象 也 有 可 能 不 同 ， 
我 们 还 需要 用 equa1s 0 方法 进行 判断 。 请 注意 ， 这 说 明 如 果 你 要 为 自 定义 的 数据 类 型 定义 散 列 函 
数 ， 你 需要 同时 重 写 hashCode() 和 equa1s() 两 个 方法 。 默 认 散 列 函数 会 返回 对 象 的 内 存 地 址 ， 
但 这 只 适用 于 很 少 的 情况 。Java 为 很 多 常用 的 数据 类 型 重 写 了 hashCodeQ 方法 (包括 String、 
Integer、 Double、 File 和 URL) 。 
3.4.1.7 ”将 hashCode() 的 返回 值 转化 为 一 个 数组 索引 

因为 我 们 需要 的 是 数组 的 索引 而 不 是 一 个 32 位 的 整数 ， 我 们 在 实现 中 会 将 默认 的 hashCodeC) 
方法 和 除 贸 余数 法 结合 起 来 产生 一 个 0 到 M-1 的 整数 ， 方 法 如 下 : 

private int' hash(Key x) 

{ return (x.hashCode() & 0x7fffffff) % M; } 

这 段 代码 会 将 符号 位 屏蔽 (将 一 个 32 位 整数 变 为 一 个 31 位 非 负 整数 ) ， 然 后 用 除 留 余数 法 计 
算 它 除 以 A 的 余数 。 在 使 用 这 样 的 代码 时 我 们 一 般 会 将 数组 的 大 小 M 取 为 素数 以 充分 利用 原 散 列 值 
的 所 有 位 。 注 意 : 为 了 避免 混乱 ， 我 们 在 例子 中 不 会 使 用 这 种 计算 方法 而 是 使 用 表 3.4.1 所 示 的 散 
列 值 作 为 替代 。 
3.4.1.8 自 定义 的 hashCode() 方法 

散 列表 的 用 例 希 望 hashCode() 方法 
能 够 将 键 平均 地 散布 为 所 有 可 能 的 32 位 
整数 。 也 就 是 说 ， 对 于 任意 对 象 x， 你 可 
以 调用 x.hashCode() 并 认为 有 均等 的 机 
会 得 到 22 中 的 任意 一 个 32 位 整数 值 。 








public class Transaction 


private final String Who; 
private final Date when; 
private final double amount; 


Java 中 的 String、Integer、Double、 
File 和 URL 对 象 的 hashCodeQ 方法 都 
能 实现 这 一 点 。 而 对 于 自己 定义 的 数据 类 
型 ， 你 必须 试 着 自己 实现 这 3.4.1.5 
节 中 的 Date 例子 展示 了 一 种 可 行 的 方案 : 








用 实例 变量 的 整数 值 和 除 留 余数 法 得 到 散 ” 


列 值 。 在 Java 中 ， 所 有 的 数据 类 型 都 继 


承 了 hashCodeQ) 方法 ， 因 此 还 有 一 个 更 


public int hashCode() 
{ 


int hash = 17; 
hash = 31 * hash + who.hashCode(); 
hash = 31 * hash + when.hashCodeQO); 
hash = 31 * hash 

+ ((Double) amount) .hashCodeO; 
return hash; 


自 定义 类 型 中 hashCodeQ 〇 方法 的 实现 
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简单 的 做 法 ; 将 对 象 中 的 每 个 变量 的 hashCode() 返回 值 转化 为 32 位 整数 并 计算 得 到 散 列 值 ， 如 
Transaction 类 所 示 。 2 

对 于 原始 类 型 的 对 象 ， 可 以 将 其 转化 为 对 应 的 数据 类 型 然后 再 调用 hashCodeQ 方法 。 和 以 前 
一 样 ; 系数 的 具体 值 (这 里 是 31 ) 并 不 是 很 重要 
3.4.1.9 软 缓存 

如 果 散 列 值 的 计算 很 耗 时 ， 那 么 我 们 或 许可 以 将 每 个 键 的 散 列 值 缓存 起 来 ， 即 在 每 个 键 中 使 用 
一 个 hash 变量 来 保存 它 的 hashCode( 的 返回 值 ( 请 见 练习 3.4.25 ) 。 第 一 次 调用 hashCode() 方 
法 时 , 我 们 需要 计算 对 象 的 散 列 值 , 但 之 后 对 hashCode() 方法 的 调用 会 直接 返回 hash 变量 的 值 。 
Java 的 String 对 象 的 hashCodeC) 方法 就 使 用 了 这 种 方法 来 减少 计算 量 。 

总 的 来 说 ,要 为 一 个 数据 类 型 实现 一 个 优秀 的 散 列 方法 需要 满足 三 个 条 件 : 

口 一 致 性 一 一 等 价 的 键 必然 产生 相等 的 散 列 值 ; 

口 高 效 性 一 一 计算 简便 ; 

口 均匀 性 一 一 均匀 地 散 列 所 有 的 键 

设计 同时 满足 这 三 个 条 件 的 散 列 函数 是 专家 们 的 事 。 有 了 各 种 内 置 函 数 ，Java 程序 员 在 使 用 散 
列 时 只 需要 调用 hashCcodeO) 方法 即 可 ， 我 们 没有 理由 不 信任 它们 。 

但 是 ， 在 有 性 能 要 求 时 应 该 谨慎 使 用 散 列 ， 因 为 糟糕 的 散 列 函 数 经 常 是 性 能 问题 的 罪魁 祸首: 
程序 可 以 工作 但 比 预 想 的 慢 得 多 。 保 证 均匀 性 的 最 好 办 法 也 许 就 是 保证 键 的 每 一 位 都 在 散 列 值 的 计 
算 中 起 到 了 相同 的 作用 ; 实现 散 列 函 数 最 常见 的 错误 也 许 就 是 忽略 了 键 的 高 位 。 无 论 散 列 函 数 的 实 
现 是 什么 ， 当 性 能 很 重要 时 你 应 该 测试 所 使 用 的 所 有 散 列 函数 。 计 算 散 列 函数 和 比较 两 个 键 ， 哪 个 
耗 时 更 多 ? 你 的 散 列 函数 能 够 将 一 组 键 均 匀 地 散布 在 0 到 M-1 之 间 吗 ? 用 简单 的 实现 测试 这 些 问 
题 能 够 预防 未 来 的 翡 剧 。 例 如 ， 图 3.4.2 就 显示 出 ， 对 于 《双城记 》 我 们 的 hash() 方法 在 使 用 了 
Java 的 String 类 型 的 hashCode() 方法 后 能 够 得 到 一 个 合理 的 分 布 
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键 人 站 be 
图 3.4.2 《双城记 》 中 每 个 单词 的 散 列 值 的 出 现 频率 (10 679 个 键 ， 即 单词 ，M=97) 【 另 见 彩 插 ) 


这 些 讨论 的 背后 是 我 们 在 使 用 散 列 时 作出 的 一 个 重要 假设 。 这 个 假设 是 一 个 我 们 实际 上 无 法 达 
到 的 理想 模型 ， 但 它 是 我 们 实现 散 列 函数 时 的 指导 思想 。 


假设 J( 均 与 散 列 假设 ) 。 我们 使 用 的 散 列 函 数 能 够 均匀 并 独立 地 将 所 有 的 键 散布 于 0 到 M-1 之 间 。 


讨论 。 我 们 在 实现 散 列 函数 时 随意 指定 了 很 多 参数 ， 这 显然 无 法 实现 一 个 能 够 在 数学 意义 上 均 
义 并 独立 地 散布 所 有 键 的 散 列 函数 。 坚 深 的 理论 研究 告诉 我 们 想 要 找到 一 个 计算 简单 但 又 拥有 
一 致 性 和 均匀 性 的 散 列 函数 是 不 太 可 能 的 。 在 实际 应 用 中 ， 和 使 用 Math.random() 生成 随机 数 
一 样 ， 大 多 数 程序 员 都 会 满足 于 随机 数 生成 器 类 的 散 列 函 数 。 很 少 有 人 会 去 检验 独立 性 ， 而 这 
个 性 质 一 般 都 不 会 满足 。 
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尽管 验证 这 个 假设 很 困难 ， 假 设 了 仍然 是 考察 散 列 函 数 的 重要 方式 ， 原 因 有 两 点 。 首 先 ， 设 计 
散 列 函数 时 尽量 避免 随意 指定 参数 以 防止 大 量 的 碰撞 ， 这 是 我 们 的 重要 目标 ; 其 次 ， 尽 管 我 们 可 能 
无 法 验证 假设 本 身 ， 它 提示 我 们 使 用 数学 分 析 来 预测 散 列 算法 的 性 能 并 在 实验 中 进行 验证 。 


3.4.2 ”基于 拉链 法 的 散 列表 


一 个 散 列 函 数 能 够 将 键 转化 为 数组 索引 。 散 列 算法 的 第 二 步 是 碰撞 处 理 ， 也 就 是 处 理 两 个 或 多 
个 键 的 散 列 值 相 同 的 情况 。 一 种 直接 的 办 法 是 将 大 小 为 M 的 数组 中 的 每 个 元 素 指向 一 条 链表 ， 链 
表 中 的 每 个 结 点 都 存储 了 散 列 值 为 该 元 素 的 索引 的 键 值 对 。 这 种 方法 被 称 为 拉链 法 ， 因 为 发 生 冲 突 
的 元 素 都 被 存储 在 链表 中 。 这 个 方法 的 基本 思想 就 是 选择 足够 大 的 M， 使 得 所 有 链表 都 尽 可 能 短 以 
保证 高 效 的 查找 。 查 找 分 两 步 ， 首先 根据 散 列 值 找到 对 应 的 链表 ， 然后 沿 着 链表 顺序 查找 相应 的 键 。 

拉链 法 的 一 种 实现 方法 是 使 用 原始 的 链表 数据 类 型 (请 见 练习 3.42) 来 扩展 
SequentialSearchsT (算法 3.1 ) 。 另 一 种 更 简单 的 方法 (但 效率 稍 低 ) 是 采用 一 般 性 的 策略 ， 为 
MM 个 元 素 分 别 构建 符号 表 来 保存 散 列 到 这 里 的 键 ,这 样 也 可 以 重用 我 们 之 前 的 代码 。 算 法 3.5 实现 
的 SeparateChainingHashST 使 用 了 一 个 SequentialsearchsT 对 象 的 数组 ， 在 put() 和 get() 
的 实现 中 先 计算 散 列 函 数 来 选 定 被 查找 的 SequantialSearchST 对 象 ， 然 后 使 用 符号 表 的 putO 
和 get() 方法 来 完成 相应 的 任务 。 






























































因为 我 们 要 用 M 条 链表 键 做 列 什 
保存 入 个 键 , 无 论 键 在 各 个 链 5 2 
表 中 的 分 布 如 何 ,链表 的 平均 。 E 0 NAT -El 
长 度 肯定 是 NM。 例 如， 假设 ”A 0 SK 
所 有 的 键 都 沙 在 了 第 一 条 链表 KR 4 st/ Re 
上 ， 所 有 链表 的 平均 长 度 仍然 Cc 4 “9 A 
是 (N40+0+…+0NYM=NIM。 拉 H 4 首 元 素 ~ 人 、 了 
链 法 在 实际 情况 中 很 有 用 , 因 。 E 0 4 ?| BDI $2 
为 每 条 链表 确实 都 大 约 含有 NI/  X 2 7 4 | 
“MM 个 键 值 对 。 在 一 般 情况 中 ， A 0 Eg 
我 们 能 够 由 它 验 证 假设 1 并且。 M4 二 
可 以 依赖 这 种 高 效 的 查找 和 插  P 3 ML-IHTTSEHRT | 
入 实现 。 L 3 

在 标准 索引 用 例 中 使 用 基 。 E 0 
于 拉链 法 的 散 列表 如 图 3.43 图 3.43 “标准 索引 用 例 使 用 基于 拉链 法 的 散 列表 
所 示 。 


算法 3.5 基于 拉链 法 的 散 列表 





public class SeparateChainingHashST<Key, Value> 
private int N; // 刍 值 对 总 数 
private int M; // 数列 表 的 大 小 
private SequentialSearchST<Key，Value>[] st; // 存放 链表 对 象 的 教 组 


public SeparatechainingHashsTO 
{thisC997); } 
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public SeparateChainingHashSTCint M) 
人 // 创建 M 条 链表 
this.M = M; 
st = (SequentialSearchST<Key, Value>[]) new SequentialSearchST[M]; 
for (int 1 = 0; i < M; i++) 
St[i] = new SequentialSearchsTO; 
要 
private int hash(Key key) 
{ return (key.hashCodeO & 0x7fffffff) % M; } 
public Value get(Key key) 
{ return (Value) st[hash(key)].get(key); } 
public void put(Key key, Value val) 
{ st[hash(key)].putCkey, val); } 
public Iterable<Key> keys() 
// 请 见 练习 3.4.19 


} 

这 段 简单 的 符号 表 实现 维护 着 一 条 链表 的 数组 ， 用 散 列 函数 来 为 每 个 键 选择 一 条 链表 。 简 单 起 见 ， 
我 们 使 用 了 SequentialSearchST。 在 创建 st[] 时 需要 进行 类 型 转换 ， 因 为 Java 不 允许 泛 型 的 数组 。 
默认 的 构造 函数 会 使 用 997 条 链表 ， 因 此 对 于 较 大 的 符号 表 ， 这 种 实现 比 SequentialSearchST 大 约 
会 快 1000 倍 。 当 你 能 够 预知 所 需要 的 符号 表 的 大 小 时 ， 这 上 段 短小 精 悍 的 方案 能 够 得 到 不 错 的 性 能 。 一 种 
更 可 靠 的 方案 是 动态 调整 链表 数组 的 大 小 ， 这 样 无 论 在 符号 表 中 有 多 少 键 值 对 都 能 保证 链表 较 短 ( 请 见 
3.4.4 节 及 练习 3.4.18 ) 。 








命题 K。 在 一 张 含 有 M 条 链表 和 NN 个 键 的 的 散 列表 中 ，( 在 假设 了 成 立 的 前 提 下 ) 任意 一 条 链 
表 中 的 键 的 数量 均 在 N/M 的 常数 因子 范围 内 的 概率 无 限 趋向 于 1。 


简略 的 证 明 。 有 了 假设 J， 这 个 问题 就 变 成 了 一 个 经 典 的 概率 论 问题 。 在 这 里 我 们 为 有 一 些 概 
率 论 基础 知识 的 读者 给 出 一 个 简要 的 证 明 。 


由 二 项 分 布 可 知 ， 一 条 给 定 的 链表 正好 含有 上 个 键 的 概率 为 


(10, 0.12511..) ep 


El 

kM\M M 二 项 分 布 (N=104, M= 103, a=10) 

因为 我 们 实际 上 是 从 NN 个 键 中 取 了 其 中 个 。 这 上 个 键 被 散 列 到 给 定 的 链表 的 概率 均 为 JM， 而 剩 
下 的 (Y- 个 键 不 被 散 列 到 给 定 的 链表 中 的 概率 均 为 (1-1/M)。 令 a=NIM， 这 个 公式 可 以 写 为: 


CS 


对 于 较 小 的 a ， 经 典 的 泊 松 分 布 可 以 非常 近似 地 表示 它 : 





对 宾 松 分 布 (N= 104, M= 103, a=10) 


由 此 可 得 ， 一 条 链表 中 含有 超过 ra 个 键 的 概率 不 会 超过 ( ae/1) 'e*。 对 于 实际 应 用 来 说 ， 这 
个 数字 非常 小 。 例 如 ， 如 果 平 均 链表 长 度 为 10， 那么 一 个 键 的 散 列 值 落 在 一 条 长 度 超过 20 的 
链表 的 概率 不 超过 ( 10e/2 ) *e "= 0.0084; 如 果 平 均 链 表 长 度 为 20， 那 么 一 个 键 的 散 列 值 落 在 
一 条 长 度 超过 40 的 链表 的 概率 不 超过 ( 20 e/2 ) *e ”0.000 001 6。 这 个 结果 并 不 能 保证 每 条 链 
表 都 很 短 ， 但 我 们 可 以 知道 当 a 一 定时 ， 最 长 链表 的 平均 长 度 的 增长 速度 为 logN/loglogN。 


这 段 数学 分 析 非 常 有 力 ,但 需要 注意 的 是 它 完全 依赖 于 假设 J。 如 果 散 列 函数 不 是 均匀 和 独立 的 ， 
那么 查找 和 插入 的 成 本 就 可 能 入 成 正比 ， 也 就 是 和 顺序 查找 类 似 。 假 设 ] 比 我 们 见 过 的 其 他 和 概 
“ 率 有 关 的 算法 中 相应 的 假设 都 有 效 ， 但 也 更 加 难以 验证 。 在 计算 散 列 值 时 ， 我 们 假设 每 个 键 都 有 均 
等 的 机 会 被 散 列 到 M 个 索引 中 的 任意 一 个 ， 无 论 键 有 多 复杂 。 我 们 没 法 用 实验 来 验证 所 有 可 能 的 
数据 类 型 ， 所 以 我 们 会 进行 更 复杂 的 实验 ， 在 实际 应 用 中 可 能 出 现 的 一 组 键 中 随机 取样 进行 验证 ， 
然后 统计 结果 并 分 析 。 好 消息 是 我 们 在 测试 中 仍然 可 以 使 用 这 个 算法 来 验证 假设 ] 和 由 它 得 出 的 数 


性 质 L。 在 一 张 含 有 M 条 链表 和 N 个 键 的 的 散 列表 中 ， 未 命中 查找 和 插入 操作 所 需 的 比较 次 效 
为 ~NIM。 


例证 。 在 实际 应 用 中 , 散 列 表 算 法 的 高 性 能 并 不 需要 散 列 函数 完全 符合 假设 了 意义 上 的 均匀 性 。 
自 20 世纪 50 年 代 以 来 ， 无 数 程序 员 都 见证 了 命题 K 所 预言 的 性 能 改进 ， 即 使 有 些 散 列 函数 
不 是 均匀 的 ， 命 题 也 成 立 。 例 如 ， 图 3.4.4 所 示 的 FrequencyCounter 使 用 的 散 列表 ( 其 中 的 
hash() 方法 是 基于 Java 的 String 类 型 的 hashCode() 方法 ) 中 的 链表 长 度 和 理论 模型 完全 一 
致 。 这 条 性 质 的 例外 之 一 是 在 许多 情况 下 散 列 函数 未 能 使 用 键 的 所 有 信息 而 造成 的 性 能 低下 。 
除 此 之 外 ， 大 量 经 验 丰富 的 程序 员 给 出 的 应 用 实例 令 我 们 确信 ， 在 基于 拉链 法 的 散 列 表 中 使 用 
大 小 为 M 的 数组 能 够 将 查找 和 插入 操作 的 效率 提高 M 倍 。 


3.4.2.1 ” 散 列表 的 大 小 

在 实现 基于 拉链 法 的 散 列表 时 ， 我 们 的 目标 是 选择 适当 的 数组 大 小 M， 既 不 会 因为 空 链表 
而 浪费 大 量 内 存 ， 也 不 会 因为 链表 太 长 而 在 查找 上 浪费 太 多 时 间 。 而 拉链 法 的 一 个 好 处 就 是 这 
并 不 是 关键 性 的 选择 。 如 果 存 人 的 键 多 于 预期 ， 查 找 所 需 的 时 间 只 会 比 选择 更 大 的 数组 稍 长 ; 
如 果 少 于 预期 ， 虽 然 有 些 空间 浪费 但 查找 会 非常 快 。 当 内 存 不 是 很 紧张 时 ， 可 以 选择 一 个 足够 
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466| 








大 的 WM， 使 得 查找 需要 的 时 间 变 为 常数 ; 当 内 存 紧张 时 ， 选 择 尽量 大 的 M 仍 然 能 够 将 性 能 提高 ”[467| 


好 倍 。 例 如 对 于 FrequencyCounter， 从 图 3.4.4 可 以 看 出 ， 每 次 操作 所 需要 的 比较 次 数 从 使 用 
SequentialSearchST 时 的 上 千 次 降低 到 了 使 用 SeparateChainingHashST 时 的 若干 次 ， 正 如 我 
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们 所 料 。 另 一 种 方法 是 动态 调整 数组 的 大 小 以 保持 短小 的 链表 ( 请 见 练习 3.4:18 ) 。 


SS a=10.711.… 
125 





频率 





0 i0 20 30 
链表 的 长 度 (10 679 个 键 , M= 997) 


图 3.4.4 使 用 SeparateChainingHashST， 运行 java FrequencyCounter 8 < tale.txt 时 所 有 链 
表 的 长 度 〈 另 见 彩 插 ) 


3.4.2.2 ”删除 操作 
4 要 删除 一 个 键 值 对 ， 先 用 散 列 值 找到 含有 该 键 的 SequentialSearchST 对 象 ， 然 后 调用 该 对 象 
的 delete() 方法 (请 见 练习 3.1.5 ) 。 这 种 重用 已 有 代码 的 方式 比重 新 实现 链表 的 删除 更 好 。 
3.4.2.3 ”有 序 性 相关 的 操作 
散 列 最 主要 的 目的 在 于 均匀 地 将 键 散布 开 来 ,因此 在 计算 散 列 后 键 的 顺序 信息 就 委 失 了 ,如 图 3.4.5 
所 示 。 如 果 你 需要 快速 找到 最 大 或 者 最 小 的 键 ， 或 是 查找 某 个 范围 内 的 键 ， 或 是 实现 表 3.1.4 中 有 序 
符号 表 API 中 的 其 他 任何 方法 , 散 列表 都 不 是 合适 的 选择 ,因为 这 些 操作 的 运行 时 间 都 将 会 是 线性 的 。 
基于 拉链 法 的 散 列表 的 实现 简单 。 在 键 的 顺序 并 不 重要 的 应 用 中 ， 它 可 能 是 最 快 的 ( 也 是 使 
用 最 广泛 的 ) 符号 表 实现 。 当 使 用 Java 的 内 置 数据 类 型 作为 键 ， 或 是 在 使 用 含有 经 过 完善 测试 的 
hashCode() 方法 的 自 定义 类 型 作为 键 时 ， 算 法 3.5 能 够 提供 快速 而 方便 的 查找 和 插入 操作 。 下 面 ， 
我 们 会 介绍 另 一 种 解决 碰撞 冲突 的 有 效 方法 。 








| 
0 操作 14350 











[468] 图 3.4.5 使 用 SeparateChainingHashsT， 运 行 java FrequencyCounter 8 < tale.txt 的 成 本 
(M=997) 





3.4.3 ”基于 线性 探测 法 的 散 列表 

实现 散 列表 的 另 一 种 方式 就 是 用 大 小 为 M 的 数组 保存 N 个 键 值 对 ， 其 中 MeN。 我 们 需要 依靠 
数组 中 的 空位 解决 碰撞 冲突 。 基 于 这 种 策略 的 所 有 方法 被 统称 为 开放 地 址 散 列表 。 

开放 地 址 散 列表 中 最 简单 的 方法 叫做 线性 探测 法 : 当 碰 挤 发 生 时 ( 当 一 个 键 的 散 列 值 已 经 被 另 
一 个 不 同 的 键 占 用 ) ， 我 们 直接 检查 散 列 表 中 的 下 一 个 位 置 ( 将 索引 值 加 1 ) 。 这 样 的 线性 探测 可 
能 会 产生 三 种 结果 : 让 
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口 命中 ,该 位 置 的 键 和 被 查找 的 键 相 同 ; 

口 未 命中 ， 键 为 空 (该 位 置 没有 键 ) ; 

口 继续 查找 ， 该 位 置 的 键 和 被 查找 的 键 不 同 。 

我 们 用 散 列 函 数 找到 键 在 数组 中 的 索引 ， 检 查 其 中 的 键 和 被 查找 的 键 是 否 相同 。 如 果 不 同 则 继 
续 查 找 ( 将 索引 增 大 ， 到 达 数 组 结尾 时 折 回 数组 的 开头 ) ， 直 到 找到 该 键 或 者 遇 到 一 个 空 元素 ， 如 
图 3.4.6 所 示 。 我 们 习惯 将 检查 一 个 数组 位 置 是 否 含有 被 查找 的 键 的 操作 称 作 探测 。 在 这 里 它 可 以 
等 价 于 我 们 一 直 使 用 的 比较 ， 不 过 有 些 探测 实际 上 是 在 测试 键 是 否 为 空 。 

开放 地 址 类 的 散 列表 的 核心 思想 是 与 其 将 内 存 用 作 链 表 ， 不 如 将 它们 作为 在 散 列表 的 空 元 素 。 
这 些 空 元 素 可 以 作为 查找 结束 的 标志 。 在 LinearProbingHashST 中 可 以 看 到 (算法 3.6) ， 使 用 这 
种 思想 来 实现 符号 表 的 API 是 十 分 简单 的 。 我 们 在 实现 中 使 用 了 并 行 数 组 ， 一 条 保存 键 ， 一 条 保存 
值 ， 并 像 前 面 讨 论 的 那样 使 用 散 列 函 数 产生 访问 数据 所 需 的 数组 索引 。 
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图 3.4.6 ”标准 索引 用 例 使 用 的 基于 线性 探测 的 符号 表 的 轨迹 〈 另 见 彩 插 ) 469| 














算法 3.6 ”基于 线性 探测 的 符号 表 





public class LinearprobingHashST<Key, Value> 
{ 
private int N; // 符号 表 中 键 值 对 的 总 数 
private int M = 16; // 线性 探测 表 的 大 小 
private Key[] keys; // 键 
private Value[] vals; // 值 
public LinearProbingHashsTO 
keys = (Key[]) new Object[M]; 
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vals = (Value[]) new Object[M]; 
} 
private int hash(Key key) 
{ return (key.hashCode() & 0x7fffffff) % M; } 


private void resizeO // 请 见 3.4.4 闻 


public void put(Key key, Value val) 


if (N >= M/2) resize(2*M); // 将 M 加 倍 (请 见 正文 ) 


int i; 

for (i = hash(key); keys[i] !- null; 1 = (i+D%Mm 
if (keys[i].equalsCkey)) { vals[i] = val; return; } 

keys[i] = key; 

vals[i] = val; 


Na+i 
} 
public Value get(Key key) 
{ 


for (Cint i = hash(key); keys[i] != null; i = (i + 1)%M 
if (keys[i] .equals(key)) 
return vals[i]; 
return null; 
和 
} 


这 段 符号 表 的 实现 将 键 和 值 分 别 保存 在 两 个 数组 ( BinarySearchST 类 型 ) 中 ， 使 用 空 ( 标记 为 
nu11 ) 来 表示 一 簇 键 的 结束 。 如 果 一 个 新 键 的 散 列 值 是 一 个 空 元 素 , 那么 就 将 它 保存 在 那里 ， 如 果 不 是 ， 
我 们 就 顺序 查找 一 个 空 元 素来 保存 它 。 要 查找 -个 键 , 我 们 从 它 的 散 列 值 开始 顺序 查找 , 如 果 找 到 则 命中 ， 


[59] 如 果 过 到 空 元 素 则 未 命中 。keys © 方法 的 实现 请 见 练习 3.4.19。 





3.4.3.1 ”删除 操作 public void delete(Key key) 


如 何 从 基于 线性 探测 的 散 列表 中 删除 一 个 
键 ? 仔细 想 一 想 ， 你 会 发 现 直接 将 该 键 所 在 的 位 
置 设 为 nu11 是 不 行 的 ， 因 为 这 会 使 得 在 此 位 置 之 
后 的 元 素 无 法 被 查找 。 例 如 ， 假 设 在 轨迹 图 的 例 
子 中 (图 3.4.6) 我 们 需要 用 这 种 方法 删除 键 C， 
然后 查找 H。H 的 散 列 值 是 4, 但 它 实际 存储 在 这 
一 簇 键 的 结尾 ， 即 7 号 位 置 。 如 果 我 们 将 5 号 位 
置 设 为 nu11、get0 方法 将 无 法 找到 H。 因 此 ， 
我 们 需要 将 艇 中 被 删除 键 的 右 侧 的 所 有 键 重新 揪 
入 散 列表 。 这 个 过 程 比 想象 的 要 复杂 ， 所 以 你 最 
好 以 练习 (请 见 练习 3.4.17 ) 为 例 跟踪 右 侧 这 段 代 
码 的 运行 全 过 程 。 

和 拉链 法 一 样 ， 开 放 地 址 类 的 散 列 表 的 性 能 
也 依赖 于 ec=NUM 的 比值 ， 但 意义 有 所 不 同 。 我 们 
将 ee 称 为 散 列表 的 使 用 幸 。 对 于 基于 拉链 法 的 散 
列表 ，a 是 每 条 链表 的 长 度 ， 因 此 一 般 大 于 1; 


{ 


if (!contains(key)) return; 

int 1 = hash(key); 

while (Cl!key.equals(keys[i])) 
i= (i + 1)%M; 

keys[i] = nul1; 

vals[i] = null; 

i = i+ 1) %M; 

while Ckeys[i] 1= nu11) 

{ 


Key keyToRedo ~ keys[i]; 
Value valToRedo = vals[1]; 
keys[i] = null; 
vals[i] = null; 
N= 
put(keyToRedo, valToRedo) ; 
i= C+D%M; 

了 

Ny 


if (N > 0 && N == M/8) resizeC(M/2); 


基于 线性 探测 的 散 列表 的 删除 操作 
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对 于 基于 线性 探测 的 散 列表 ，a 是 表 中 已 被 占用 的 空间 的 比例 ， 它 是 不 可 能 大 于 1 的 。 事 实 上 ,在 
LinearprobingHashST 中 我 们 不 允许 a 达到 1( 散 列表 被 占 满 ) ， 因 为 此 时 未 命中 的 查找 会 导致 
无 限 循环 。 为 了 保证 性 能 ， 我 们 会 动态 调整 数组 的 大 小 来 保证 使 用 率 在 18 到 12 之 间 。 这 个 策略 
是 基于 数学 上 的 分 析 ， 我 们 会 在 讨论 实现 的 细节 之 前 介绍 。 
3.4.3.2 键 徐 

线性 探测 的 平均 成 本 取决 于 元 素 在 插 人 数组 后 到 集成 新 他 疹 入 这 
的 一 组 连续 的 条 目 ， 也 叫做 鱼 丛 ， 如 图 3.4.7 所 示 。 例如， 插入 之 前 47 多 可 9/64 
在 示例 中 插入 键 C 会 产生 一 个 长 度 为 3 的 键 氏 (AC 5) 。 
这 意味 着 插入 H 需 要 探测 4 次 ,因为 H 的 散 列 值 为 该 键 久 
的 第 一 个 位 置 。 显然 ， 短 小 的 刍 纺 才能 保证 较 高 的 效率 。 
随 着 插入 的 刍 越 来 越 多 ， 这 个 要 求 很 难 满足 ， 较 长 的 键入 
会 越 来 越 多 , 如 图 3.48 所 示 。 另外 , 因为 (基于 均匀 性 假设 ) 
- 数组 的 每 个 位 置 都 有 相同 的 可 能 性 被 插入 一 个 新 键 ， 长 键 图 3.4.7 线性 探测 法 中 的 刍 忽 (MM-64) 
镶 更 长 的 可 能 性 比 短 键 儿 更 大 ， 因 为 新 刍 的 散 列 值 无 论 落 : 
在 能 中 的 任何 位 置 都 会 使 的 长 度 加 1 ( 其 至 更 多 ， 如 果 这 个 簇 和 相 邻 的 入 之 间 只 有 一 个 空 元 素 相 
陋 的 话 ) 。 下 面 我 们 要 将 刍 戏 的 影响 量化 来 预测 线性 探测 法 的 性 能 ， 并 使 用 这 些 信息 在 我 们 的 实现 
中 设置 适当 的 参数 值 。 




















keys[8064. .8192] 
” 图 3.4.8 数组 的 使 用 模式 (2048 个 键 ， 每 行 128 个 ) [Ea 


3.4.3.3 ”线性 探测 法 的 性 能 分 析 
尽管 最 后 的 结果 的 形式 相对 简单 ， 准 确 分 析 线性 探测 法 的 性 能 是 非常 有 难度 的 。Knuth 在 1962 
年 作出 的 以 下 推导 是 算法 分 析 史 上 的 一 个 里 程 碑 。 
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命题 M。 在 一 张大 小 为 M 并 含有 N=a M 个 键 的 基于 线性 探测 的 散 列表 中 ， 基 于 假设 J， 命 中 
和 未 命中 的 查找 所 需 的 探测 次 数 分 别 为 


1 1 
ea) ee 
特别 是 当 a 约 为 12 时， 查找 命 中 所 需要 的 探测 次 数 约 为 3/2， 未 命中 所 需要 的 约 为 5/2。 当 a 


趋 近 于 1 时 ,这 些 估计 值 的 精确 度 会 下 降 . 但 不 需要 担心 这 些 情况 ， 因 为 我 们 会 保证 获 列 表 的 
使 用 率 小 于 1/2。 


讨论 。 要 计算 平均 值 ， 首 先 要 计算 在 散 列表 中 每 个 位 置 上 出 现 查 找 未 命中 所 需要 的 探测 次 数 ， 
然后 将 所 有 探测 次 数 之 和 除 以 M。 所 有 查找 未 命中 都 至 少 需要 一 次 探测 ， 因 此 我 们 从 第 一 次 探 
测 之 后 开始 计数 。 考 虑 在 一 张 半 满 的 ( M=2N ) 线性 探测 散 列表 中 可 能 出 现 的 以 下 两 种 极端 情 
况 : 在 最 好 的 情况 下 ， 偶 数位 置 的 数组 元 素 都 是 空 的 ， 奇 数位 置 的 数组 元 素 都 是 满 的 ; 在 最 坏 
的 情况 下 ， 前 半 张 表 是 空 的 ， 后 半 张 表 是 满 的 。 键 并 的 平均 长 度 在 两 种 情况 下 都 是 NM(2N)=1/2， 
但 未 命中 的 查找 所 需 的 探测 次 数 在 最 好 情况 下 为 1 ( 所 有 的 查找 都 至 少 需要 一 次 探测 ) 加 上 
(0O+140+1+.…)2N)=1/2， 在 最 坏 情 况 下 为 1+(N+N-1)+…)A(2N)~N/4。 将 这 段 证 明 一 般 化 可 得 
未 命中 的 查找 平均 所 需 的 比较 次 数 和 键 往 长 度 的 平方 成 正比 。 如 果 一 个 键 禾 的 长 度 为 1， 那 么 
(M(t-1)+…+2+1)M=A(t+1)/(2M) 就 是 在 这 段 键 徐 中 查找 未 命中 所 需 的 平均 探测 次 数 。 因 为 所 有 
键 钞 的 总 长 度 肯定 为 V， 所 以 将 表 中 所 有 键 徐 所 得 的 平均 探测 次 数 相 加 可 以 得 到 ， 一 次 未 命中 
的 查找 的 平均 成 本 为 1+N/(2M)+( 每 个 键 比 的 长 度 的 平方 之 和 )， 再 除 以 2M。 因 此 ， 给 定 一 张 
散 列表 ， 我 们 就 可 以 快速 计算 该 表 中 一 次 未 命中 查找 的 平均 成 本 ( 请 见 练习 3.4.21 ) 。 一 般 情 
况 下 , 键 簇 的 形成 需要 一 个 复杂 的 动态 过 程 ( 也 就 是 线性 探测 算法 ) ， 很 难 分 析 并 找 出 特点 ， 














473] 。 而 且 这 也 远 远 超出 了 本 书 的 讨论 范围 。 


命题 M 告诉 我 们 (在 假设 了 的 前 提 下 ) 当 散 列表 快 满 的 时 候 查 找 所 需 的 探测 次 数 是 巨大 的 ( a 
越 趋 近 于 1, 由 公式 可 知 探测 的 次 数 也 越 来 越 大 ) , 但 当 使 用 率 a 小 于 1/2 时 探测 的 预计 次 数 只 在 1.5 
到 2.5 之 间 。 下 面 ,我 们 为 此 来 考虑 动态 调整 散 列表 数组 的 大 小 


3.4.4” 调 整数 组 大 小 
我 们 可 以 使 用 第 1 章 中 
介绍 的 调整 数组 大 小 的 方法 来 
保证 散 列表 的 使 用 率 永远 都 站 void resize(int cap) 


不 会 超过 12。 首先， 我 们 的 LinearprobingHashST<Key, Value> ti 
LinearProbingHashST 需要 一 Me Mw 
个 新 的 构造 函数 ， 它 接受 一 个 if Ckeys[i] !- nul1) 
固定 的 容量 作为 参数 (在 算法 。.、 i 
keys = t.keys; 
“3.6 的 构造 函数 中 加 入 一 行 代码 vals = t.vals; 
就 可 以 在 创建 数组 之 前 将 M 设 0 


迷 
为 给 定 的 值 ).。 然 后 ,我们 需 


要 右边 给 出 的 resizeO) 方 法 。 调整 线性 探测 散 列表 
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它 会 创建 一 个 新 的 给 定 大 小 的 tinearProbingHashsT， 保 存 原 表 中 的 keys 和 values 变量 ， 然 后 
将 原 表 中 所 有 的 键 重 新 散 列 并 插入 到 新 表 中 。 这 使 我 们 可 以 将 数组 的 长 度 加 倍 。put() 方法 中 的 第 
一 条 语句 会 调用 resize() 来 保证 散 列表 最 多 为 半 满 状 态 。 这 段 代码 构造 的 散 列表 比 原来 大 一 售 ， 
因此 a 的 值 就 会 碱 半 。 和 其 他 需要 调整 数组 大 小 的 应 用 场景 一 样 ， 我 们 也 需要 在 -delete() 方法 
的 最 后 加 上 : 

证 > 0 8& N < M/8) resize(M/2); : 
以 保证 所 使 用 的 内 存 攻 和 表 中 的 刍 入 对 数量 的 比例 总 在 一 定 范围 之 内 。 动态 调整 数组 大 小 可 以 为 我 
们 保证 a 不 大 于 1/2。 
3.4.4.1 拉链 法 

我 们 可 以 用 相同 的 方法 在 拉链 法 中 保持 较 短 的 链表 ( 平均 长 度 在 2 到 8 之 间 ) ; 在 
resize() 中 将 LinearProbingHashST 替换 为 SeparateChainingHashST， 当 N >= M/2 时 调用 
resize(2*M)， 并 在 delete() 中 (在 N > 0 &&N <= M/8 时 ) 调用 resize(M/2)。 对 于 拉链 法 ， 
如 果 你 能 准确 地 估计 用 例 所 需 的 散 列表 的 大 小 NN， 调 整数 组 的 工作 并 不 是 必需 的 ， 只 需要 根据 查找 
耗 时 和 ( 1+N/M) 成 正比 来 选取 一 个 适当 的 M 即 可 。 而 对 于 线性 探测 法 ， 调 整数 组 的 大 小 是 必需 的 ， 
因为 当 用 例 插入 的 键 值 对 数量 超过 预期 时 它 的 查找 时 间 不 仅 会 变 得 非常 长 ， 还 会 在 散 列表 被 填 满 时 
进入 无 限 循环 。 1474| 
3.4.4.2 均 摊 分 析 1 

从 理论 角度 来 说 ， 当 我 们 动态 调整 数组 大 小 时 ， 需 要 找 出 均 捧 成 本 的 上 限 ， 因 为 我 们 知道 使 散 
列表 长 度 加 倍 的 插入 操作 需要 大 量 的 探测 。 





全 月 N 假设 一 张 列表 能 名 自 己 调整 数组 的 大 小 , 初 奴 为 空 . 失 于 候 设 执行 任意 顺序 的 7 次 得 找 、 
栖 入 和 出 除 操 作 所 哩 的 时 间 和 1 成 正比 ， 所 使 用 的 内 存量 总 是 在 表 中 的 刍 的 总 数 的 常数 因子 范围 内 


证 明 。 对 于 拉链 法 和 线性 探测 法 ， 结 合 命题 K 和 命题 M 可 知 ， 这 个 全 是 只 是 对 我 们 在 第 1 章 
中 第 一 次 讨论 过 的 数组 增长 的 均 捧 分 析 的 简单 重复 而 已 。 


如 图 3.4.9 和 图 3.4.10 所 示 ， 在 FrequencyCounter 的 例子 中 ， 累 计 平 均 的 曲线 很 好 地 显示 出 
散 列表 中 调整 数组 大 小 的 动态 行为 。 每 次 数组 长 度 加 们 之后， 累计 平均 值 都 会 增加 约 1， 因 为 表 中 
的 每 个 键 都 需要 重新 计算 散 列 值 。 然 后 该 值 慢 慢 下 降 ， 因 为 半数 左右 的 键 被 重新 分 配 到 了 表 中 的 不 
同位 置 。 随 着 表 中 的 键 的 增加 ， 该 值 下 降 的 速度 也 慢 慢 降低 。 


10 累计 平均 








T 
0 操作 14350 


图 3.4.9 使 用 能 够 自动 调整 数组 大 小 的 ac 运行 java FrequencyCounter 
8< tale.txt 的 成 本 
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图 3.4.10“ 使 用 能 够 自动 调整 数组 大 小 的 LinearProbingHashST， 运 行 java FrequencyCounter 8 < 
”tale.txt 的 成 本 

3.4.5 内存 使 用 、 


我 们 说 过 ， 如 果 我 们 希望 将 散 列表 的 性 能 调整 到 最 优 ， 理 解 它 的 内 存 使 用 情况 是 非常 重要 的 。 
虽然 这 种 调整 是 专家 们 的 事 儿 ， 但 通过 估计 引用 的 使 用 数量 来 粗略 计算 所 需 的 内 存量 仍然 是 很 好 的 
练习 。 方 法 如 下 : 除了 存储 键 和 值 所 需 的 空间 之 外 ， 我 们 实现 的 SeparateChainingHashST 保存 
了 M 个 SequentialSearchST 对 象 和 它们 的 引用 。 每 个 SequentialSearchST 对 象 需要 16 字 节 ， 
它 的 每 个 引用 需要 8 字 节 。 另外 还 有 N 个 node 对 象 ; 每 个 都 需要 24 字 节 以 及 3 个 引用 (key、 
Value 和 next ) , 比 二 又 查找 树 的 每 个 结 点 还 多 需要 一 个 引用 。 在 使 用 动态 调整 数组 大 小 来 保证 
表 的 使 用 率 在 1/8 到 1/2 之 间 的 情况 下 ， 线 性 探测 使 用 4N 到 16N 个 引用 。 可 以 看 出 ,根据 内 存 用 


- 量 来 选择 散 列表 的 实现 并 不 容易 。 对 于 原始 数据 类 型 ， 这 些 计算 又 有 所 不 同 (请 见 练习 3.4.24 ) 。 





符号 表 的 内 存 使 用 如 表 3.4.2 所 示 。 
表 3.4.2 符号 表 的 内 存 使 用 
方 法 人 个 元 素 所 需 的 内 存 〈 引 用 类 型 ) 
基于 拉链 法 的 散 列表 -48NH32M 
基于 线性 探测 的 散 列表 在 ~32N 和 ~128N 之 间 
各 种 二 又 查找 树 -56N 





自 计算 机 发 展 的 伊始 ， 研 究 人 员 就 研究 了 ( 并 且 现 在 仍 在 继续 研究 ) 散 列 表 并 找到 了 很 多 方法 
来 改进 我 们 所 讨论 过 的 几 种 基本 算法 。 你 能 找到 大 量 关 于 这 个 主题 的 文献 。 大 多 数 改 进 都 能 降低 时 
间 - 空间 的 曲线 : 在 查找 耗 时 相同 的 情况 下 使 用 更 少 的 空间 ， 或 使 在 使 用 相同 空间 的 情况 下 进行 更 
快 的 查找 。 其 他 方法 包括 提供 更 好 的 性 能 保证 ,如 最 坏 情况 下 的 查找 成 本 ; 改进 散 列 函数 的 设计 等 。 
我 们 会 在 练习 中 讨论 其 中 的 部 分 方法 。 

拉链 法 和 线性 探测 法 的 详细 比较 取决 于 实现 的 细节 和 用 例 对 空间 和 时 间 的 要 求 。 即 使 基于 性 能 
考虑 ， 选 择 拉链 法 而 非 线性 探测 法 也 不 一 定 是 合理 的 ( 请 见 练习 3.5.31 ) 。 在 实践 中 ， 两 种 方法 的 
性 能 差别 主要 是 因为 拉链 法 为 每 个 键 值 对 都 分 配 了 一 小 块 内 存 而 线性 探测 则 为 整 张 表 使 用 了 两 个 很 
大 的 数组 。 对 于 非常 大 的 散 列表 ， 这 些 做 法 对 内 存 管理 系统 的 要 求 也 很 不 相同 。 在 现代 系统 中 ,在 
性 能 优先 的 情景 下 ， 最 好 由 专家 去 把 握 这 种 平衡 。 
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有 了 这 些 假设 ,期 望 散 列表 能 够 支持 和 数组 大 小 无 关 的 常数 级 别 的 查找 和 插入 操作 是 可 能 的 。 
对 于 任意 的 符号 表 实现 ,这 个 期 望都 是 理论 上 的 最 优 性 能 。 但 散 列表 并 非 包 治 百 病 的 灵丹妙药 ,因为 : 

口 每 种 类 型 的 键 都 需要 一 个 优秀 的 散 列 函数 ; 

口 性 能 保证 来 自 于 散 列 函数 的 质量 ; 

口 散 列 函 数 的 计算 可 能 复杂 而 且 昂 贵 ; 














口 难以 支持 有 序 性 相关 的 符号 表 操 作 。 
在 考察 了 这 些 基本 问题 之 后 ， 我 们 会 在 3.5 节 的 开头 将 散 列表 和 我 们 学 习 过 的 其 他 符号 表 的 实 
现 方法 进行 比较 。 477 
图 和 经 
间 Java 的 Integer、Double 和 Long 类 型 的 hashCode() 方法 是 如 何 实现 的 ? 
答 “Integer 类 型 会 直接 返回 该 整数 的 32 位 值 .对 于 Double 和 Long 类 型 ， primes[k] 
Java 会 返回 值 的 机 器 表示 的 前 32 位 和 后 32 位 异 或 的 结果 。 这 些 方法 。《“ 。 小 Ch- 
可 能 不 够 随机 ， 但 它们 的 确 能 够 将 值 散 列 。 2 A 
问 ” 当 能 够 动态 调整 数组 大 小 时 ， 散 列表 的 大 小 总 是 2 的 乱 ， 这 不 是 个 间 7 1 127 
题 吗 ? 这 样 hash0 方法 就 只 使 用 了 hashCode() 返回 值 的 低位 。 8 5 251 
答 是 的 ， 这 个 问题 在 默认 实现 中 特别 明显 。 解 决 这 个 问题 的 一 种 方法 是 12 3 了 
先 用 一 个 大 于 M 的 素数 来 散 列 键 值 对 ， 例 如 : 11 9 2039 
private int hash(Key x) pe .3 4093 
13 出 8191 
int t = x.hashCode() & 0x7fffffff; 14 3 16381 
if (1gM < 26) tf = t % primes[1gM+5]; 15 19 32749 
return t % M; 16 15 65521 
4 17 1 131071 
这 段 代码 假设 我 们 使 用 了 一 个 变量 lgM， 它 的 值 等 于 lgM ( 直接 初始 Gr 3 
化 为 该 值 ， 并 在 将 数组 长 度 加 倍 或 者 减 半 时 增 大 或 者 减 小 它 ) , 以 ”20 3 本 
及 一 个 数组 primes[] ， 其 中 含有 大 于 各 个 2 的 短 的 最 小 素数 (请 见 21 9 2097143 
右 表 ”) 。 代 码 中 的 常数 5 是 随意 取 的 一 个 值 一 我 们 希望 第 一 次 取 。 ?3 8 
余 操作 (% ) 能 够 将 所 有 值 散 列 在 小 于 该 素数 的 范围 之 内 ,而 第 二 次 。 24 3 16777213 
取 余 操作 则 将 其 中 的 5 个 值 映射 到 小 于 以 的 所 有 值 中 。 请 注意 ,对 ”25 33 2 
于 很 大 的 M 这 是 没有 意义 的 。 27 Ty 134217689 
间 我 忘记 了 ， 为 什么 不 将 hash(x) 实现 为 x.hashCode() % M7 38 各 总 268435399 
答 “ 散 列 值 必须 在 0 到 M-1 之 间 , 而 在 Java 中 , 取 余 (%) 的 结果 可 能 是 负数 。 ?333 ,536870909 
问 那 为 什么 不 将 hash(x) 实现 为 Math.abs(x.hashCodeO) % M? 31 i 2147483647 


答 间 得 好 ， 不 幸 的 是 对 于 最 大 的 整数 Math.abs() 会 返回 一 个 负 值 。 对 。 将 散 列表 大 小 设 为 素数 [478 
于 许多 典型 情况 ， 这 种 溢出 不 会 造成 什么 问题 ， 但 对 于 散 列表 这 可 能 
使 你 的 程序 在 几 十 亿 次 插入 之 后 崩溃 ， 这 很 难说 。 例 如 ，Java 中 字符 串 "polygenelubricants'" 的 
散 列 值 为 -2”。 找 出 散 列 值 为 这 个 数 ( 以 及 为 0) 的 其 他 字符 串 已 经 变 成 了 一 种 有 趣 的 算法 谜 题 。 








外 这 里 似乎 和 表 的 内 容 不 相符 ， 表 中 prime[k] 的 值 是 小 于 2 的 最 大 素数 。 一 译 者 注 
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问 








479| 








在 算法 3.5 中 为 什么 使 用 SequentialSearchST 而 非 BinarySearchST 或 者 RedB1ackBST? 
一 般 来 说 ， 我 们 希望 散 列 到 每 个 索引 值 上 的 键 越 少 越 好 ， 而 对 于 小 规模 符号 表 初 级 实现 的 性 能 一 般 
更 好 。 在 某 些 情况 下 , 使 用 这 些 复杂 的 实现 也 许 能 够 稍稍 将 性 能 提高 , 但 最 好 让 专家 来 进行 这 种 调 优 。 
散 列表 的 查找 比 红 黑 树 更 快 吗 ? 

这 取决 于 键 的 类 型 ， 它 决定 了 hashCodeQ 的 计算 成 本 是 否 大 于 compareToQ 的 比较 成 本 。 对 于 常 
见 的 键 类 型 以 及 Java 的 默认 实现 ， 这 两 者 的 成 本 是 近似 的 ， 因 此 散 列 表 会 比 红 黑 树 快 得 多 ， 因 为 它 
所 需 的 操作 次 数 是 固定 的 。 但 需要 注意 的 是 , 如 果 要 进行 有 序 性 相关 的 操作 , 这 个 问题 就 没有 意义 了 ， 
因为 散 列表 无 法 高 效 地 支持 这 些 操作 。 进 一 步 的 讨论 请 见 3.5 节 。 

为 什么 不 能 让 基于 线性 探测 的 散 列表 充满 四 分 之 三 ? 

没什么 特别 的 原因 。 你 可 以 选择 任意 的 a 值 并 用 命题 M 来 估计 相应 的 查找 成 本 。 对 于 a=3/4,， 查 
找 命中 的 平均 成 本 为 2.5， 未 命中 的 为 8.5。 但 如 果 你 允许 a 增长 到 7/8， 查 找 未 命中 的 平均 成 本 就 
会 达到 32.5， 这 可 能 已 经 超出 了 你 的 承受 能 力 。 随 着 a 趋 近 于 1, 命题 M 得 出 的 估计 值 的 准确 度 会 
下 降 ， 但 你 不 应 该 使 散 列表 的 占有 率 达 到 那 种 程度 。 


图 红 


3.4.1 将 键 E AS Y QU TI ON 依次 插入 一 张 初始 为 空 且 含有 M=5 条 链表 的 基于 拉链 法 的 散 列表 中 。 


使 用 散 列 函数 11 k % M 将 第 个 字母 散 列 到 某 个 数组 索引 上 。 


3.4.2 重新 实现 SeparateChainingHashST， 直 接 使 用 SequentialSearchsT 中 链表 部 分 的 代码 。 
3.4.3 ”修改 你 为 上 一 道 练习 给 出 的 实现 ， 为 每 个 键 值 对 添加 一 个 整 型 变量 ， 将 其 值 设 为 插入 该 键 值 对 时 


散 列表 中 元 素 的 数量 。 实 现 一 个 方法 ， 将 该 变量 的 值 大 于 给 定 整数 k 的 键 ( 及 其 相应 的 值 ) 全 部 
删除 。 注 意 : 这 个 额外 的 功能 在 为 编译 器 实现 符号 表 时 很 有 用 。 


3.4.4 使 用 散 列 函 数 (a * k) % M 将 S E A R C H X M P | 中 的 第 上 个 键 散 列 为 一 个 数组 索引 。 编 写 


一 段 程序 找 出 a 和 最 小 的 M， 使 得 该 散 列 函数 得 到 的 每 个 索引 都 不 相同 没有 碰撞 ) 。 这 样 的 函 
数 也 被 称 为 完美 散 列 函 数 。 


3.4.5 下 面 这 段 hashCode() 的 实现 合法 吗 ? 


public int hashCode() 
{ return 17; } 


如 果 合法 ， 请 描述 它 的 使 有 效果， 否则 请 解释 原因 。 


3.4.6 ”假设 键 为 :位 整数 。 对 于 一 个 使 用 素数 M 的 除 留 余数 法 的 散 列 函数 ， 请 证 明 对 于 键 的 每 一 位 ， 都 


存 不 同 的 两 个 键 ， 它 们 的 散 列 值 只 有 该 位 不 同 。 


3.4.7 考虑 对 于 整 型 的 键 将 除 留 余数 法 的 散 列 函 数 实现 为 (a * k) % M, 其 中 a 为 一 个 任意 的 固定 素数 。 


这 样 是 否 足以 利用 键 的 所 有 位 使 得 我 们 可 以 使 用 一 个 非 素数 M 了 呢 ? 


3.4.8 对 于 NMF10、10、10、10'、10 和 10'， 请 估计 将 N 个 键 插入 一 张 SeparateChainingHashST 的 散 
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列表 后 还 剩 多 少 空 链表 ? 提示 : 参考 练习 2.5.31。 


3.4.9 为 SeparateChainingHashST 实现 一 个 即时 的 delete() 方法 。 








3.4.10 将 键 E A S Y Q UT 工 0 N 依次 插入 一 张 初始 为 空 且 大 小 为 M=16 的 基于 线性 探测 法 的 散 列 


表 中 。 使 用 散 列 函数 11 k % M 将 第 KK 个 字母 散 列 到 某 个 数组 索引 上 。 对 于 M=10 将 本 题 重新 完 
成 一 遍 。 


3.4 散 列 表 二 309 


3:4.11 将 键 E ASYQUTIDNC 依 次 插入 一 张 初始 为 空 大 小 为 W-4 的 基于 线性 探测 法 的 散 列 表 中 ， 
数组 只 要 达到 半 满 即 自动 将 天 长 度 加 倍 。 使 用 散 列 函数 11 k % NM 将 第 上 个 字母 散 列 到 某 个 数组 
索引 上 。 给 出 得 到 的 散 列表 的 内 容 。 

3.4.12， 设 有 键 到 G， 散 列 值 如 下 所 示 。 将 它们 按照 一 定 顺 序 插入 到 一 张 初始 为 空 大 小 为 7 的 基于 线 
性 探测 的 散 列表 中 (这 里 数组 的 大 小 不 会 动态 调整 }。 下 面 哪个 选项 是 不 可 能 由 插入 这 些 键 产 
生 的 ? 给 出 这 些 键 在 构造 散 列表 时 可 能 所 需 的 最 大 和 最 小 探测 次 数 ， 并 给 出 相应 的 插入 顺序 来 
证 明 你 的 答案 。 

FGACBD 

EBGFDA. 

DFACEG 

GBADEF 

GBDACE 

ECADBER by 


5 


mapn 
ATNnmwmAawu 





A 1 D E F 
散 列 值 《M=7》 " 0 0 4 4 4 2 








3.4.13 在 下 面 哪些 情况 中 基于 线性 探测 的 散 列 表 中 的 一 次 随机 的 命中 查找 所 需 的 时 间 是 线性 的 ? 
和 a 所 有 键 均 被 散 列 到 同一 个 索引 上 

b. 所 有 键 均 被 散 列 到 不 同 的 索引 上 
c. 所 有 键 均 被 散 列 到 同一 个 偶数 索引 上 

d. 所 有 键 均 被 散 列 到 不 同 的 偶数 索引 上 

3.4.14 ”对 于 未 命中 的 查找 回答 上 一 道 练习 的 问题 ， 假 设 被 查找 的 键 被 散 列 到 表 中 任意 位 置 的 可 能 性 
均等 。 8 

3.4.15 “在 最 坏 情况 下 ， 向 一 张 初始 为 空 、 基 于 线性 探测 法 并 能 够 动态 调整 数组 大 小 的 散 列表 中 插入 N 
个 键 需要 多 少 次 比较 ? 

3.4.16 ”假设 有 一 张大 小 为 10' 的 基于 线性 探测 的 散 列表 已 经 半 满 了 ， 被 占用 的 元 素 随机 分 布 。 请 估计 所 |[481 
有 索引 值 中 能 够 被 100 整除 的 位 置 都 被 占用 的 概率 。 ” 

3.4.17 .使 用 3.4.3.1 节 的 delete0 方法 从 标准 索引 测试 用 例 使 用 的 LinearProbingHashST 中 删除 键 C 并 
给 出 结果 散 列表 的 内 容 。 

3.4.18 为 SeparateChainingHashST 添加 一 个 构造 函数 ， 使 用 例 能 够 指定 查找 操作 可 以 接受 的 在 链表 
中 进行 的 平均 探测 次 数 。 动 态 调整 数组 的 大 小 以 保证 链表 的 平均 长 度 小 于 该 值 ， 并 使 用 答疑 中 
所 述 的 方法 来 保证 hash() 方法 的 系数 总 是 素数 。 

3.4.19 为 SeparateChainingHashST 和 LinearProbingHashST 实现 keysO 方法 。 

3.4.20 为 LinearProbingHashST 添加 一 个 方法 来 计算 一 次 命中 查找 的 平均 成 本 ， 假 设 表 中 每 个 键 被 查 
找 的 可 能 性 相同 。 

3.4.21 为 LinearprobingHashsT 添加 一 个 方法 来 计算 一 次 未 命中 查找 的 平均 成 本 ， 假 设 使 用 了 一个 随 
机 的 和 散 列 函数 。 请 注意 : 要 解决 这 个 问题 并 不 一 定 要 计算 所 有 的 散 列 函 数 。 

3.4.22 “为 下 列 数据 类 型 实现 hashCode() 方法 : Point2D、Interval、Interval2D 和 Date。 

3.4.23 ”对 于 字符 串 类 型 的 键 ， 考 虑 R = 256 和 M = 255 的 除 留 余数 法 的 散 列 函 数 。 请 证 明 这 是 一 个 糟 
糕 的 选择 ， 因 为 任意 排列 的 字母 所 得 字符 串 的 散 列 值 均 相同 。 
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3.4.24 


对 于 double 类 型 ， 分 析 拉链 法 、 线 性 探测 法 和 二 叉 查 找 树 的 内 存 使 用 情况 。 将 结果 整理 成 类 似 
于 表 3.4.2 的 表格 。 











483| 








3.4.25 


3.4.26 


3.4.27 


3.4.28 


3.4.29 
3.4.30 


3.4.31 


3.4.32 


散 列 值 的 缓存 。 修 改 3.4.19 节 的 Transaction 类 并 维护 一 个 变量 hash， 在 hashCode() 方法 第 
一 次 为 一 个 对 象 计算 散 列 值 后 将 值 保存 在 hash 中 ,这 样 随后 的 调用 就 不 必 重新 计算 了 。 请 注意 
这 种 方法 仅 适用 于 不 可 变 的 数据 类 型 。 
线性 探测 法 中 的 延 时 副 除 。 为 LinearProbingHashST 添加 一 个 delete() 方法 ， 在 删除 一 个 键 
值 对 时 将 其 值 设 为 nu11， 并 在 调用 resizeQ 方法 时 将 键 值 对 从 表 中 删除 。 这 种 方法 的 主要 难 
点 在 于 决定 何 时 应 该 调用 resize() 方法 。 请 注意 : 如 果 后 来 的 put() 方法 为 该 键 指定 了 一 个 
新 的 值 ， 你 应 该 用 新 值 将 nu11 覆盖 掉 。 你 的 程序 在 决定 扩张 或 者 收缩 数组 时 不 但 要 考虑 到 数组 
的 空 元 素 ， 也 要 考虑 到 这 种 死神 的 元 素 。 
二 次 探测 。 修 改 SeparateChainingHashST， 进 行 二 次 散 列 并 选择 两 条 链表 中 的 较 短 者 。 将 键 
EASYQUTI0ON 依次 插入 一 张 初始 为 空 且 大 小 为 M=3 的 基于 拉链 法 的 散 列表 中 ， 以 11 
k % M 作 为 第 一 个 散 列 函数 ，17 k % M 作 为 第 二 个 散 列 函数 来 将 第 个 字母 散 列 到 某 个 数组 案 
引 上 。 给 出 插入 过 程 的 轨迹 以 及 随机 的 命中 查找 和 未 命中 查找 在 该 符号 表 中 所 需 的 平均 探测 次 
数 。 
二 次 散 列 。 修 改 LinearProbingHashST， 进 行 二 次 散 列 以 得 到 探测 起 始点 。 确 切 地 说 ， 是 将 ( 所 
有 的 ) Ci + 1) % M 替 换 为 (i + k) % M, 其 中 k 是 一 个 非 零 、 和 M 互 质 且 和 键 相关 的 整数 。 提示; 
可 以 令 M 为 素数 来 满足 互 质 的 条 件 。 使 用 上 一 道 练习 中 给 出 的 两 个 散 列 函数 ， 将 键 EA SY QU 
T I 0 N 依次 插入 一 张 初始 为 空 且 大 小 为 M=11 的 基于 线性 探测 的 散 列表 中 。 给 出 插入 过 程 的 轨 
迹 以 及 随机 的 命中 查找 和 未 命中 查找 所 需 的 平均 探测 次 数 。 
删除 操作 。 分 别 为 前 两 题 中 所 述 的 散 列表 实现 即时 的 deleteQ 方法 。 
卡 方 值 (chi 一 square statistic ) 。 为 SeparateChainingHashsT 添加 一 个 方法 来 计算 散 列表 的 
X 。 对 于 大 小 为 M 并 含有 N 个 元 素 的 散 列 表 ， 这 个 值 的 定义 为 : 
X2=(MNIU-NAMO + NIM) + tf NIMY) 
其 中 , /为 散 列 值 为 i 的 键 的 数量 。 这 个 统计 数据 是 检测 我 们 的 散 列 函 数 产 生 的 随机 值 是 否 
满足 假设 的 一 种 方法 。 如 果 满 足 ， 对 于 N>cM， 这 个 值 落 在 M - VM 和 Mt+ VM 之 间 的 概率 
为 1 - l/c。 
Cuckoo 散 列 函数 。 实 现 一 个 符号 表 ， 在 其 中 维护 两 张 散 列表 和 两 个 散 列 函数 。 一 个 给 定 的 键 只 能 
存在 于 一 张 散 列表 之 中 。 在 插入 一 个 新 键 时 ， 在 其 中 一 张 散 列 表 中 插入 该 键 。 如 果 这 张 表 中 该 键 
的 位 置 已 经 被 占用 了 ， 就 用 新 刍 蔡 代 老 键 并 将 老 键 插入 到 另 一 张 散 列 表 中 ( 如 果 在 这 张 表 中 该 键 
的 位 置 也 被 占用 了 ， 那 么 就 将 这 个 占用 者 重新 插入 第 一 张 散 列表 ， 把 位 置 腾 给 被 插入 的 键 ) ， 如 
此 循环 往复 。 动 态 调整 数组 大 小 以 保持 两 张 表 都 不 到 半 满 。 这 种 实现 中 查找 所 需 的 比较 次 数 在 最 
坏 情况 下 是 一 个 常数 ， 插 入 操 作 所 需 的 时 间 在 均 摊 后 也 是 常数 。 
散 列 攻击 。 找 出 2 个 hashCodeQ) 方法 返回 值 均 相同 且 长 度 均 为 2" 的 字符 串 。 假 设 String 类 
型 的 hashCodeQ 〇 方法 的 实现 如 下 : 


3.4.33 


3.4 散 列 表 号 311 


public int hashCode() 
{ 


int hash = 0; 

for Cint 1 = 0; i < lengthO; i ++) 
hash = (hash * 31) + charAt(i); 

return hash; 


重要 提示 : Aa 和 BB 的 散 列 值 相同 。 
糟糕 的 散 列 务 教 。 考 虑 Java 的 早期 版 本 中 String 类 型 的 hashCode() 方法 的 实现 ， 如 下 所 示 ; 


public int hashCodeO) 
全 


int hash = 0; 

int skip = Math.max(1, length()/8); 

for (int i = 0; i < lengthO; i += skip) 
hash = (hash * 37) + charAt(i); 

return hash; 


} 
说 明 你 认为 设计 者 选择 这 种 实现 的 原因 以 及 为 什么 它 被 替换 成 了 上 一 道 练习 中 的 实现 。 


图 实验 是 


3.4.34 


3.4.35 
3.4.36 


3.4.37 


3.4.38 


3.4.39 


3.4.40 


3.4.41 


3.4.42 
3.4.43 


散 列 的 成 本 。 用 各 种 常见 的 数据 类 型 进行 实验 以 得 到 hash() 方法 和 compareTo() 方法 的 耗 时 
比 的 经 验 数据 。 

卡 方 检验 。 使 用 你 为 练习 3.4.30 给 出 的 答案 验证 常用 数据 类 型 的 散 列 函 数 产生 的 值 是 否 随机 。 
链表 长 度 的 范围 。 编 写 一 段 程序 ， 向 一 张 长 度 为 W100 的 基于 拉链 法 的 散 列 表 中 插 人 NN 个 随机 
的 int 键 ， 找 出 表 中 最 长 和 最 短 的 链表 的 长 度 ， 其 中 N=10、10*、10 和 105。 

混合 使 用 。 用 实验 研究 在 SeparateChainingHashST 中 使 用 正 RedB1ackBST 代替 SequentialSearchST 
来 处 理 碰撞 的 性 能 。 这 种 方案 的 优点 是 即使 散 列 函数 很 糟糕 它 仍 然 能 够 保证 对 数 级 别 的 性 能 ， 
缺点 是 需要 维护 两 种 不 同 的 符号 表 实现 。 实 际 效果 如 何 呢 ? 

拉链 法 的 分 布 。 编 写 一 段 程序 ， 向 一 张大 小 为 10; 的 基于 线性 探测 法 的 散 列 表 中 插入 10; 个 小 于 
10 的 随机 非 负 整数 并 在 每 10 次 插入 后 打印 出 当前 探测 的 总 次 数 。 讨 论 你 的 结果 在 何 种 程度 上 
验证 了 命题 K。” 

线性 探测 法 的 分 布 。 向 一 张大 小 为 NN 的 基于 线性 探测 法 的 散 列表 中 插入 N/2 个 随机 非 负 整数 并 
根据 表 中 的 键 能 计算 一 次 未 命中 查找 的 平均 成 本 ， 其 中 N=10:、104、10' 和 105。 讨 论 你 的 结果 
在 何 种 程度 上 验证 了 命题 M。 

绘图 。 改 进 LinearProbingHashST 和 SeparateChainingHashST 的 实现 ， 使 之 给 出 和 正 文中 
类 似 的 图 表 。 

三 次 探测 。 用 实验 研究 来 评估 二 次 探测 法 的 效果 ( 请 见 练习 3.4.27) 。 

三 次 散 列 。 用 实验 研究 来 评估 二 次 散 列 法 的 效果 ( 请 见 练习 3.4.28 ) 。 

停车 问题 (D. Knuth)。 用 实验 研究 来 验证 一 个 猜想 : 向 一 张大 小 为 M 的 基于 线性 探测 法 的 散 列 
表 中 插入 MM 个 随机 键 所 需 的 比较 次 数 为 ~ cM”， 其 中 c= Vx/3 。 


外 这 个 题目 和 拉链 无 关 ， 是 原 书 的 bug。 一 一 译 者 注 
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3.5 应 用 


在 计算 机 发 展 的 早期 , 符号 表 帮助 程序 员 从 使 用 机 器 语言 的 数字 地 址 进化 到 在 汇编 语言 中 使 用 符 
号 名 称 ; 在 现代 应 用 程序 中 ， 符 号 名 称 的 含义 能 够 通行 于 跨越 全 球 的 计算 机 网 络 。 快 速 查找 算法 曾经 
并 继续 在 计算 机 领域 中 扮演 着 重要 角色 。 符 号 表 的 现代 应 用 包括 科学 数据 的 组 织 ， 例 如 在 基因 组 数据 
中 寻找 分 子 标记 或 模式 从 而 绘制 全 基因 组 图 谱 ; 网 络 信息 的 组 织 ， 从 搜索 在 线 贸易 到 数字 图 书馆 ; 以 
及 互联 网 基础 构架 的 实现 ， 例 如 包 在 网 络 结 点 中 的 路 由 、 共 享 文件 系统 和 流 媒体 等 。 高 效 的 查找 算法 
确保 了 这 些 以 及 无 数 其 他 重要 的 应 用 程序 成 为 可 能 。 在 本 节 中 我 们 会 考察 几 个 有 代表 性 的 例子 。 

口 能 够 快速 并 灵活 地 从 文件 中 提取 由 逗号 分 隔 的 信息 的 一 个 字典 程序 和 一 个 索引 程序 。 豆 号 分 

隔 的 格式 .( 及 类 似 格式 ) 常用 于 存储 网 络 信息 。 

口 为 一 组 文件 构建 逆向 索引 的 一 个 程序 。 

口 一 个 表示 稀 玻 矩阵 的 数据 类 型 。 它 用 符号 表 处 理 的 问题 规模 能 够 远 远大 于 这 种 数据 类 型 的 标准 实现 。 

在 第 6 章 中 ,我 们 会 学 习 一 种 适合 于 数据 库 或 者 文件 系统 的 符号 表 ， 它 能 够 保存 的 数据 量 超过 
你 的 想象 

符号 表 在 本 书 其 他 章节 的 算法 中 也 会 起 到 关键 的 作用 。 例 如 ， 我 们 会 使 用 符号 表 来 表示 图 (第 
4 章 ) 以 及 处 理 字符 申 (第 5 章 ) 。 

在 本 章 中 我 们 已 经 看 到 ， 实 现 能 够 快速 进行 各 种 操作 的 符号 表 是 一 项 很 有 挑战 性 的 任务 。 另 一 


， 方 面 ， 我 们 学 习 过 的 实现 都 经 过 了 仔细 研究 ， 应 用 广泛 并 且 在 许多 环境 中 都 可 用 (包括 Java 的 标准 


库 ) 。 从 现在 开始 ， 符 号 表 就 将 成 为 你 的 编程 工具 箱 中 的 一 件 重要 武器 。 


3.5.1 “我 应 该 使 用 符号 表 的 哪 种 实现 


表 3.5.1 总 结 了 由 本 章 中 多 个 命题 和 性 质 得 到 的 各 种 符号 表 算法 的 性 能 特点 ( 散 列表 的 最 坏 情 
况 除外 ， 它 的 结果 来 自 于 研究 文献 并 且 也 不 太 可 能 在 实际 应 用 中 过 到 ) 。 从 表 中 显然 可 以 知道 ， 对 
于 典型 的 应 用 程序 ， 应 该 在 散 列表 和 二 叉 查 找 树 之 间 进 行 选择 。 

相对 二 叉 查找 树 ， 散 列表 的 优点 在 于 代码 更 简单 ， 且 查找 时 间 最 优 ( 常数 级 别 ， 只 要 键 的 数据 
类 型 是 标准 的 或 者 简单 到 我 们 可 以 为 它 写 出 满足 ( 或 者 近似 满足 ) 均 匀 性 假设 的 高 效 散 列 函数 即 可 )。 
二 叉 查找 树 相对 于 散 列表 的 优点 在 于 抽象 结构 更 简单 ( 不 需要 设计 散 列 函数 ) ， 红 黑 树 可 以 保证 最 
坏 情况 下 的 性 能 且 它 能 够 支持 的 操作 更 多 ( 如 排名 、 选 择 、 排 序 和 范围 查找 ) 。 大 多 数 程 序 员 的 第 
一 选择 都 是 散 列表 ， 在 其 他 因素 更 重要 时 才 会 选择 红 黑 树 。 在 第 5 章 中 我 们 会 遇 到 这 个 “第 一 选择 ” 
的 例外 : 当 键 都 是 长 字符 串 时 ,我 们 可 以 构造 出 比 红 黑 树 更 灵活 而 又 比 散 列表 更 高 效 的 数据 结构 。 


表 3.5.1 各 种 符号 表 实现 的 渐进 性 能 的 总 结 

























最 坏 情况 下 的 运行 时 间 的 增 | 平均 情况 下 的 运行 时 间 的 增 内 存 使 用 
算法 数据 结构 ) 长 数量 级 《NN 次 插入 之 后 〉| 长 数量 级 〔N 次 插入 之 后 》 
查找 插入 查找 命中 插入 《<P 
顺序 查询 ( 无 序 链表 ) N N -MN Nn equals() 48N 
二 分 查找 ( 有 序数 组 ) leN N IgV N2 compareToC) | 16N 
二 又 树 查找 (二 又 查找 树 ) N N 1.39lgN 139lgeN | compareTo() | 64N 
2-3 树 查找 ( 红 黑 树 ) 2leN 2leN 1.00leN 1.00lgeN | compareToC) | 64N 
- 过 equals() 

拉链 法 “(链表 数组 ) NA(2M) NM hashCodeC) | 48NH64M 

2 亲人 equals() 在 32N 和 
线性 探测 法 "( 并 行 数组 ) <1.5 <25 hashCcodeC) 128N 之 间 





站 党 要 均匀 并 独立 的 数列 函数 - 
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我 们 的 符号 表 实现 已 经 可 以 广泛 应 用 于 各 种 应 用 程序 ， 但 经 过 简单 的 修改 后 这 些 算法 还 可 以 适 


应 并 支持 其 他 一 些 使 用 广泛 的 场景 ， 人 
3.5.1.1 ”原始 数据 类 型 


用 可 能 没什么 问题 。 但 如 果 是 对 几 十 亿 个 键 进行 几 十 亿 次 查找 ， 
那么 这 些 引用 就 会 造成 巨大 的 额外 开销 。 使 用 原始 数据 类 型 代 
替 Key 类 型 可 以 为 每 个 键 值 对 节省 一 个 引用 。 当 键 的 值 也 是 原 


假设 我 们 有 一 张 符号 表 ， 其 中 整 型 的 键 对 应 着 点 型 的 标准 实现 数据 存储 在 Key 和 



































” 值 。 如 果 使 用 我 们 的 标准 实现 ， 键 和 值 会 被 储存 在 Integer 和 Value 对 象 中 
Double 类 中 ,因此 我 们 需要 两 个 额外 的 引用 来 访问 每 个 键 值 对 。 = | 
如 果 应 用 程序 只 会 使 用 几 千 个 键 进行 几 千 次 查找 ， 那 么 这 些 引 Ee 


始 数据 类 型 时 我 们 又 可 以 节约 另外 一 个 引用 。 图 3.5.1 显示 了 在 。 原始 数据 类 型 的 实现 



































拉链 法 中 使 用 原始 数据 类型 的 情况 ， 这 种 交换 也 运用 于 符号 表 。。 / 本 
的 其 他 实现 。 对 于 性 能 优先 的 应 用 程序 ， 这 种 改进 并 不 困难 并 。 品 

且 值 得 一 试 (请 见 练习 3.5.4 ) 。 [I 
3.5.1.2 重复 键 


L 
符号 表 的 实现 有 时 需要 专门 考虑 重复 键 的 可 能 性 。 许 多 应 EN 


用 都 希望 能 够 为 同一 个 键 乡 定 多 个 值 。 例 如 在 一 个 交易 处 理 系 图 3.5.1 拉链 法 的 内 存 使 用 情况 
统 中 ， 多 笔 交易 的 客户 属性 都 是 相同 的 。 符 号 表 不 允许 重复 键 ， 

因此 用 例 只 能 自己 管理 重复 键 。 本 节 稍 后 我 们 会 遇 到 一 个 这 样 的 示例 程序 。 我 们 可 以 考虑 在 实现 中 
允许 数据 结构 保存 重复 的 键 值 对 ， 并 在 查找 时 返回 给 定 的 键 所 对 应 的 任意 值 之 一 。 我 们 也 可 以 加 入 
一 个 方法 来 返回 给 定 的 键 对 应 的 所 有 值 。 修 改 我 们 实现 的 二 又 查找 树 和 散 列 表 来 在 数据 结构 中 保存 
重复 的 键 并 不 困难 。 修 改 红 黑 树 可 能 会 稍 有 挑战 《请 见 练习 3.5.9 和 练习 3.5.10 ) 。 这 种 实现 在 许多 


文献 中 都 可 以 找到 ( 包括 本 书 以 前 的 版 本 ) > 488j 





3.5.1.3 ”Java 标准 库 


Java 的 java.util.TreeMap 和 java.util.HashMap 分 别 是 基于 红 黑 树 和 拉链 法 的 散 列表 的 符号 表 实 


现 。TreeMap 没有 直接 支持 rank() 、select() 和 我 们 的 有 序 符号 表 API 中 的 一 些 其 他 方法 ， 但 它 
支持 一 些 能 够 高 效 实现 这 些 方法 的 操作 。HashMap 和 我 们 的 LinearProbingHashsT 的 实现 基本 相 





为 了 保持 前 后 一 致 ， 我 们 在 本 书 中 一 般 会 使 用 3.3 节 中 基于 红 黑 树 的 符号 表 或 是 3.4 节 中 基于 


线性 探测 法 的 符号 表 。 为 了 节省 篇 幅 并 保证 符号 表 的 用 例 和 具体 实现 的 独立 性 ， 我 们 在 调用 代码 中 
将 使 用 ST 来 代替 有 序 符号 表 RedB1ackBST， 用 HashST 来 代替 有 序 性 操作 无 关 紧 要 且 拥有 艇 列 函 
数 的 LinearProbingHashST。 尽管 我 们 知道 某 些 应 用 可 能 需要 改变 或 者 扩展 这 些 算法 和 数据 结构 ， 
我 们 仍然 要 这 样 约定 。 你 应 该 使 用 哪 种 符号 表 ? 随便 ， 只 要 记得 测试 你 的 选择 是 否 能 够 提供 所 需要 
的 性 能 就 好 。 


3.5.2 ”集合 的 API 


某 些 符号 表 的 用 例 不 需要 处 理 值 , 它们 只 需要 能 够 将 键 插入 表 中 并 检测 一 个 键 在 表 中 是 否 存在 。 


因为 我 们 不 允许 重复 的 键 ， 这 些 操作 对 应 着 下 面 这 组 API ( 表 3.5.2) ,它们 只 处 理 表 中 所 有 键 的 集 
合 ， 和 相应 的 值 无 关 - 
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表 3.5.2 集合 数据 类 型 的 一 组 基本 API 
public class SET<Key> 
SETO 创建 一 个 空 的 集合 
void add(key key) 将 键 key 加 入 集合 
void delete(Key key) 从 集合 中 删除 键 key 
boolean contains(Key key) 键 key 是 否 在 集合 之 中 
boolean isEmptyO) 集合 是 否 为 空 
int sizeO 集合 中 键 的 数量 
3459 String tostringO 对 象 的 字符 串 表示 
只 要 忽略 键 关联 的 值 或 者 使 用 一 个 简 
单 的 类 进行 封装 ， 你 就 可 以 将 任何 符号 表 bYie class DeDup 
的 实现 变 成 一 个 SET 类 的 实现 ( 请 见 练习 public static void main(String[] args) 
3.5.1 至 练习 3.5.3 ) 。 HashSET<String> set; 
用 并 (union) 、 交 (intersection ) 、 Set = new HashSET<String>(); 
补 (complement ) 和 其 他 数学 集合 的 操作 pd i 
扩展 SET 类 需要 的 API 更 复杂 ( 例如 ， String key = StdIn. readString(); 
complement 操作 需要 先 定义 所 有 可 能 的 刍 a et NY 
的 集合 ), 使 用 的 算法 也 更 有 趣 , 练习 3.5.17 set.addCkey); 
会 讨论 它们 。 StdOut.printin(key); 
基于 符号 表 ST，SET 类 分 有 序 和 无 序 } 
两 个 版 本 。 如 果 键 都 是 Comparable 的 ， 。 } 
我 们 可 以 为 有 序 的 键 定义 min() 、maxQ 、 
floor() ceiling()、 deleteMin()、 Dedup 过 滤器 
deleteMax()、rank()、select() 以 及 需 
要 两 个 参数 的 size() 和 get() 方法 来 构成 一 组 完整 的 API。 为 了 遵守 我 们 关于 符号 表 5T 的 约定 ， 
我 们 在 用 例 中 用 SET 表示 有 序 的 集合 ， 用 HashSET 表示 无 序 的 集合 。 
为 了 演示 SET 的 使 用 方法 ， 我 们 来 看 一 组 过 滤器 ( filter ) 程序 。 它 会 从 标准 输入 读 取 一 组 字符 
串 并 将 其 中 一 些 写 人 标准 输出 。 这 种 程序 源 自 于 早期 内 存 很 小 无 法 容纳 所 有 数据 的 计算 机 系统 。 它 
们 在 今天 仍 有 用 武之 地 ， 那 就 是 当 你 的 程序 需要 从 网 络 中 获取 输入 时 。 在 例子 中 我 们 使 用 tinyTale. 
txt (请 见 表 3.1.7 ) 作为 输入 。 为 了 保证 可 读 性 ， 我 们 将 输入 中 的 换行 符 保留 到 了 输出 中 ， 不 过 代码 
并 没有 这 么 做 。 
3.5.2.1 dedup 
过 滤器 例子 的 原型 是 一 个 调用 SET 或 者 HashSET 来 去 掉 输入 流 中 的 重复 项 的 程序 ， 一 般 叫 
做 dedup ( 如 右 侧 代码 所 示 ) 。 我 们 会 保存 一 个 已 知 字符 串 的 集合 。 如 果 下 一 个 键 已 经 存在 于 集 
合 中 ， 忽略 之 ; 如 果 不 在 ,将 它 加 入 集合 EF 
并 打印 它 。 标 准 输 出 中 键 的 顺序 和 它们 在 。 %java pepup < rinyTale-txt 
标准 输入 中 的 顺序 相同 ， 只 是 去 掉 了 重复 age wisdom foolishness 
项 。 这 个 过 程 需要 的 空间 和 输入 中 不 同 的 。 spoch bo9y et ocredulity 
键 的 数量 成 正比 ( 一般 比 键 的 总 量 要 小 ”spring hope winter despair 
490| 得 多 ) 。 
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3.5.2.2 ”和 白 名 单 和 黑 名 单 
过 滤器 的 另 一 个 经 典 应 用 是 用 一 个 
文件 中 保存 的 键 来 判定 输入 流 中 的 哪些 键 Eis static void main(String[] args) 


public class WhiteFilter 
时 


可 以 被 传递 到 输出 流 。 这 个 通用 程序 有 许 HashSET<String> set; 
多 天 然 的 应 用 ， 最 简单 的 例子 就 是 白 名 ee 
单 。 其 中 ,文件 中 的 键 被 定义 为 好 键 。 用 wile Crin-isBpty OF 
例 可 以 选择 将 所 有 不 在 白 名 单 上 的 键 传递 San 村 人 
到 标准 输出 并 忽略 所 有 白 名 单 上 的 链 (就 ns (1StdIn.isEmpty()) 
像 第 1 章 中 我 们 的 第 一 个 程序 处 理 的 那个 Stringiwrd. a Stdinenmd perio 
4 这 i 
例子 一 样 ) ， 也 可 以 选择 只 将 所 有 在 自 名 Se 
单 上 的 键 传递 到 标准 输出 并 忽略 所 有 不 在 1 


白 名 单 上 的 键 (如 右 侧 这 段 代码 所 示 , 使 《了 
用 HashSET 实 现 的 WhiteFilter) 。 例 x 
如 ， 电 子 邮 件 程序 可 能 会 允许 用 户 通过 这 。 Ss 
样 一 个 过 滤器 指定 朋友 的 邮件 地 址 并 将 所 
有 来 自 其 他 人 的 邮件 当成 垃圾 邮件 。 我们 % more Tist.txt 
根据 指定 的 列表 构造 一 个 HashSET， 然 后 ， ”was 证 the of 
从 标准 输入 中 读 取 所 有 键 。 如 果 下 个 键 存 。 % java WhiteFilter Tist.txt < tinyTale.txt 
在 于 集合 之 中 则 打印 它 ， 否 则 就 忽略 它 。 4 ashe oc as ne en 
黑 名 单 则 与 之 相反 ， 名 单 上 的 所 有 键 都 被 。 it was the of it was the of 
定义 为 坏 键 。 同 样 ， 黑 名 单 过 滤器 也 有 两 。 1 es the of twas the of 
Ee A 于 BlackFilter list.txt < tinyTale.txt 
可 能 会 指定 一 些 FF 发送 % java 和 . 
hia 
址 发 来 的 邮件 。 我 们 订 以 用 HashSET 实 2 人 
现 一 个 BlackFilter， 过 滤 条 件 只 需要 spring hope winter despair 
和 WhiteFi1ter 相反 即 可 。 实际 应 用 中 ， 
信用 卡 公司 用 黑 名 单 过 滤 被 盗用 的 信用 卡 
号 ,路 由 器 用 自 名 单 来 实现 防火 墙 。 它 们 使 用 的 名 单 可 能 非常 巨大 ,输入 无 限 并 且 响应 时 间 要 求 非 
常 严格 。 我 们 已 经 学 习 过 的 符号 表 实 现 能 够 很 好 地 满足 这 些 需求 。 a91 


3.5.3 字典 类 用 例 
符号 表 使 用 最 简单 的 情况 就 是 用 连续 的 put () 操作 构造 一 张 符号 表 以 备 get() 查询 。 许 多 应 用 
程序 都 将 符号 表 看 做 一 个 可 以 方便 地 查询 并 更 新 其 中 信息 的 动态 字典 。 以 下 列 出 了 这 类 用 例 中 的 一 些 
常见 例子 。 
口 电话 黄页 。 当 符号 表 中 的 键 是 人 名 而 值 是 电话 号 码 时 ， 这 张 符 号 表 就 成 了 一 个 电话 本 。 但 和 
一 本 纸 质 印刷 的 电话 黄页 的 一 个 重大 不 同 是 我 们 可 以 向 其 中 添加 新 的 名 字 或 者 更 新 其 中 的 
电话 号 码 。 我 们 也 可 以 将 电话 号 码 作为 键 而 将 人 名 作为 值 一 一 如 果 你 从 来 没 这 么 做 过 ， 试 着 
在 浏览 器 的 搜索 栏 中 输入 你 的 电话 ( 包括 区 号 ) 并 搜索 一 下 。 
口 .字典 。 将 一 个 单词 和 它 的 含义 关联 起 来 就 得 到 了 “字典 ”。 几 个 世纪 以 来 人 们 都 会 在 家 里 和 
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办 公 室 里 放 一 本 纸 质 的 字典 以 查找 单词 ( 键 ) 的 定义 和 拼写 ( 值 ) 。 现 在 ， 有 了 优秀 的 符号 
表 实现 ， 人 们 在 电脑 上 可 以 使 用 内 置 的 拼写 检查 器 并 快速 查 到 单词 的 意义 。 

口 账户 信息 。 如 今 股 民 们 都 会 在 网 上 实时 获取 股票 的 价格 信息 。 这 些 网 络 服务 会 关联 股票 名 称 
( 键 ) 和 当前 价格 ( 值 ) 以 及 丰富 的 其 他 信息 。 类 似 的 商业 应 用 非常 多 ， 比 如 金融 机 构 会 将 
名 字 或 者 账号 与 账户 信息 关联 ， 学 校 会 将 学 生 的 姓名 或 者 学 号 与 他 的 成 绩 关联 ， 等 等 。 

口 基因 组 学 。 在 现代 基因 组 学 中 符号 的 作用 非常 重要 。 最 简单 的 例子 就 是 A、C、T 和 G 这 几 个 
字母 代表 了 活体 组 织 中 DNA 的 四 种 核 苷 酸 。 另 一 个 比较 简单 的 例子 是 密码 子 ( 核 苷 酸 三 联 体 ) 
和 氨基 酸 的 对 应 关系 ( TTA 表示 亮 氨 酸 ，TCT 表示 丝氨酸 ， 等 等 ) ， 以 及 氨基 酸 序 列 和 蛋白 
质 之 间 的 对 应 关系 。 基 因 组 学 的 研究 者 每 天 都 需要 使 用 各 种 符号 表 来 组 织 这 些 信 息 。 

口 实验 数据 。 从 天 体 物理 学 到 动物 学 ， 现 代 科 学 家 被 各 种 实验 数据 包围 着 。 有 效 的 组 织 和 访问 
这 些 信息 才能 理解 它们 的 含义 ， 而 符号 表 正 是 一 个 关键 的 人 手 点 。 基 于 符号 表 的 高 级 数据 结 
构 和 算法 如 今 已 经 成 为 科学 研究 的 一 个 重要 部 分 。 

口 编译 器 。 符 号 表 最 早期 的 应 用 之 一 就 是 组 织 程序 代码 的 信息 。 最 初 ， 计 算 机 程序 只 是 一 串 简 
单 的 数字 ， 但 程序 员 们 很 快 发 现 使 用 符号 来 表示 操作 和 内 存 地 址 ( 变量 名 ) 要 方便 得 多 。 将 
名 称 和 数字 关联 起 来 就 需要 一 张 符号 表 。 随 着 程序 的 增长 ， 符 号 表 操 作 的 性 能 逐渐 变 成 了 程 
序 开发 效率 的 瓶颈 ， 为 此 而 开发 的 数据 结构 和 算法 就 是 我 们 在 本 章 中 学 习 的 内 容 。 

口 文件 系统 。 我 们 都 在 使 用 符号 表 定 期 整理 计算 机 系统 中 的 数据 。 也 许 其 中 最 明显 的 例子 就 是 
文件 系统 了 ， 因 为 是 它 将 文件 名 ( 键 ) 和 文件 内 容 的 地 址 ( 值 ) 关联 起 来 。 音 乐 播放 器 同样 
使 用 文件 系统 关联 了 歌曲 名 ( 键 ) 和 歌曲 的 位 置 ( 值 ) 。 

口 互联 网 DNS。 域名 系统 (DNS ) 是 互联 网 信息 组 织 的 基础 ， 它 可 以 将 人 类 能 够 理解 的 
URL ( 键 ， 如 www.princeton.edu 或 是 www.wikipedia.org ) 和 计算 机 网 络 中 路 由 器 能 够 理 
解 的 IP 地址 ( 值 ， 如 208.216.181.15 或 是 207.142.131.206 ) 关联 起 来 。 这 个 系统 被 称 为 
下 一 代 “ 电 话 黄页 ”。 有 了 它 ， 人 们 就 可 以 使 用 便于 记忆 的 域名 ， 而 机 器 也 可 以 高 效 地 处 
理 对 应 的 数字 。 为 此 , 全 球 互联 网 的 路 由 器 中 每 秒 钟 进行 的 符号 表 查 找 次 数 是 个 天 文 数字 ， 
所 以 性 能 显然 非常 重要 。 每 年 ， 互 联网 上 都 会 新 增 上 百 万 台电 脑 和 其 他 设备 ， 因 此 互联 网 
路 由 器 中 的 符号 表 也 需要 能 够 动态 地 适应 它们 。 

将 以 上 几 个 典型 应 用 总 结 一 下 ， 如 表 3.5.3 所 示 。 


表 3.5.3 典型 的 字典 类 应 用 


— ~ 





应 用 领域 键 值 
电话 黄页 人 名 电话 号 码 
字典 单词 定义 
账户 信息 账号 余额 
基因 组 密码 子 氨基 酸 
实验 数据 数据 /时 间 实验 结果 
编译 器 变量 名 内 存 地 址 
文件 共享 - ”歌曲 名 计算 机 


网 站 下 地 址 


DNS 
一 一 ~- 


尽管 已 经 涉及 了 许多 领域 ， 表 3.5.3 中 选取 的 仍然 只 是 几 个 有 代表 性 的 例子 来 说 明 符号 表 应 用 


的 广泛 程度 。 每 当 使 用 一 个 名 称 来 指 代 某 种 东西 时 ， 都 用 到 了 符号 表 。 也 许 你 只 是 用 到 了 计算 机 的 


文件 系统 或 是 互联 网 ， 但 在 某 个 角落 肯 
定 有 一 张 符号 表 在 默默 工作 。 

作为 一 个 具体 的 例子 ， 我 们 来 看 
看 一 个 从 文件 或 者 网 页 中 提取 由 运 号 分 
隔 的 信息 〔〈.csv 文件 格式 ) 的 程序 。 这 
种 格式 存储 的 列表 的 信息 不 需要 任何 专 
用 的 程序 就 可 以 读 取 : 数据 都 是 文本 ， 
每 行 中 各 项 均 由 逗号 隔 开 。 在 本 书 的 
网 站 上 你 会 找到 很 多 .csv 文件 ， 都 和 
我 们 刚才 提 到 过 的 应 用 领域 相关 ， 包 
括 amino.csv ( 密码 子 和 氨基 酸 的 编码 
关系 ) 、DJIA.csy (. 道 琼斯 工业 平均 指 
数 历史 上 每 天 的 开盘 价 、 成 交 量 和 收盘 
价 ) 、ip.csv (DNS 数据 库 中 的 一 部 分 
条 目 ) 和 upe.csv( 广泛 用 于 识别 商品 的 
Uniform Produet Code 条 形 码 ) ， 如 右 
侧 代 码 框 所 示 。 电 子 表格 等 数据 处 理应 
用 程序 都 能 读 写 .csv 文件 ,我 们 的 例子 
程序 说 明 你 也 能 够 编写 Java 程序 来 根据 
需要 处 理 这 些 数据 。 

下 页 的 LookupCSV 根据 命令 行 指 
定 的 文件 中 的 数据 构建 了 一 组 键 值 对 ， 
并 会 打印 出 由 标准 输入 读 取 的 键 对 应 的 
值 。 命 令 行 参数 包括 一 个 文件 名 和 两 个 
整数 ,分 别 用 来 指定 键 和 值 所 在 的 位 置 。 

这 个 例子 的 目的 在 于 展示 符号 表 
的 作用 和 灵活 性 。 哪 个 网 站 的 下 地 址 
是 128.112.136.35 ? www.es.princeton. 
edu; 哪 种 氨基 酸 对 应 着 密码 子 TCA ? 
“ 丝氨酸 ; DJIA 在 1929 年 10 月 29 号 的 
价格 是 多 少 ? 252.38; 哪 种 商品 的 条 
形 码 是 0002100001086 ? 卡 夫 芝 士 粉 
( Kraft Parmesan ) 。 有 了 LookupCSV 
和 合适 的 .csv 文件 ， 可 以 轻易 查 到 这 类 

-问题 的 答案 。 

在 处 理 交 可 性 的 查询 时 ， 性 能 一 般 
都 不 是 问题 ( 因为 你 的 计算 机 在 你 打字 
的 工夫 就 能 检索 上 百 万 条 信息 ) ， 所 以 
在 使 用 LookupCSV 时 符号 表 的 高 效 性 并 
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% more amino.csv 
TTT,Phe,F,Pheny1alanine 
TTC,Phe,F,Phenylalanine 
TIA,Leu,L,Leucine 
TTG,Leu,L,Leucine 

TCT, Ser,S,Serine 

TCC, Ser,S, Serine 


CAA, Cly,G,Glutamic Acid 
CAG, Gly,G,Glutamic Acid 
GCT,G1y,G,Glycine 





% more DJIA.csv 


20-0ct-87,1738.74,608099968,1841.01 
19-0ct-87,2164.16,604300032,1738.74 
16-0ct-87,2355.09,338500000,2246.73 
15-0ct-87,2412.70,263200000,2355.09 


30-0ct-29,230.98,10730000,258.47 
29-0ct-29,252.38,16410000,230.07 
28-0ct-29,295.18,9210000,260.64 
25-0ct-29,299.47,5920000,301.22 





% more ip.csv 


www .ebay.com,66.135.192.87 
www.princeton.edu,128.112.128.15 
www.cs.princeton.edu,128.112.136.35 
www-harvard.edu,128.103.60.24 
wwm.yale.edu,130.132.51.8 

www. cnn. com, 64.236.16.20 
www.google. com, 216.239.41.99 
ww.nNytimes. com, 199.239.136.200 
www.apple. com,17.112.152.32 

www. slashdot.org, 66.35.250.151 
www. espn. com, 199.181.135.201 
ww. weather .com, 63.111.66.11 
www. yahoo. com, 216.109.118.65 


% more UPC.csv 


0002058102040, , "1 1/4"" STANDARD STORM DOOR" 
0002058102057,,"1 1/4"” STANDARD STORM DOOR" 
0002058102125, , "DELUXE STORM DOOR UNIT" 
0002082012728, "100/ per box gauge she11s” 
0002083110812, "Classical CD","'Bits and Pieces'" 
002083142882,CD, “Garth Brooks - Ropin’ The Wind" 
0002094000003,1B, "PATE PARISIEN" 

0002098000009, LB, "PATE TRUFFLE COGNAC-M&H 8Z RW" 
0002100001086, "16 oz","Kraft Parmesan" 
0002100002090, "15 pieces”, "Wrigley's Gum" 
0002100002434, "One pint”, "Trader Joe's milk" 




















-典型 的 含有 由 逗号 分 隔 的 值 的 文件 .csv) 


不 明显 。 但 是 当 程 序 需要 进行 (大 量 的 ) 查找 时 ， 符 号 表 的 性 能 就 很 重要 了 。 例 如 ， 互 联网 上 的 一 
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台 路 由 器 每 秒 钟 可 能 需要 查找 上 百 万 个 P 地 址 。 在 本 书 中 ,我 们 已 经 通过 FrequencyCounter 看 
到 了 高 性 能 的 必要 性 ， 在 本 节 中 你 还 会 看 到 其 他 几 个 例子 。 

练习 里 有 几 个 更 加 复杂 的 处 理 .csv 文件 的 测试 用 例 。 例 如， 我们 可 以 将 一 个 字典 动态 化 ， 允 
许 它 接 受 从 标准 输入 中 得 到 的 指令 来 改变 一 个 键 的 值 ， 或 是 为 它 添加 范围 查找 的 功能 ， 或 者 我 们 
可 以 为 同一 个 文件 构造 多 个 字典 。 


字典 的 查找 


public class LookupCSV 





public static void main(String[] args) 
{ 
In in = new InCargs[0]); 
int keyField = Integer.parseInt(args[1]); 
int valField ~ Integer.parseInt(args[2]); 
ST<String, String> st = new ST<String, String>O; 
while (in.hasNextLine()) 
量 
String line = in.readLineO; 
String[] tokens = line.split( “,” ); 
String key = tokens[keyFie1d]; 
String val = tokens[valField]; 
st.put(key, val); 


} 
while (!StdIn.isEmpty()) 
{ 


String query = StdIn.readString(); 
.if (st.contains(query)) 
StdOut.printin(st.get(query)); 
} 
} 
$ 


这 段 数据 驱动 的 符号 表 用 例会 从 一 个 文件 中 读 取 键 值 对 并 根据 标准 输入 中 的 键 打印 出 相应 的 值 。 其 
. 中 键 和 值 都 是 字符 申 ， 分 隔 符 由 命令 行 参数 指定 。 


% java LookupCSV ip.csv 1 0 % java LookupCSV amino.csv 0 3 
128.112.136.35 TCC 

www.cs-princetonedu Serine 

% java LookupCSV DJIA.csv 0 3 % java LookupCSV UPC.csv 0 2 
29-0ct-29 0002100001086 

230.07 Kraft Parmesan 





3.5.4 索引 类 用 例 


字典 的 主要 特点 是 每 个 键 都 有 一 个 与 之 关联 的 值 ， 因 此 基于 关联 型 抽象 数组 来 为 一 个 键 指定 一 
个 值 的 符号 表 数据 类 型 正 合适 。 每 个 账号 都 唯一 地 表示 一 个 客户 ,每 个 条 码 都 唯一 地 表示 一 种 商品 ， 
等 等 。 但 一 般 说 来 = 一 个 给 定 的 键 当然 有 可 能 和 多 个 值 相 关联 。 例如, 在 我 们 的 amino.csv 的 例子 中 ， 
每 个 密码 子 都 对 应 着 一 种 氨基 酸 , 但 一 种 氨基 酸 有 可 能 对 应 着 多 个 密码 子 。 如 下 页 的 aminol.txt 所 示 ， 


文件 的 每 一 行 都 包含 一 个 氨基 酸 和 它 对 应 的 多 个 密码 子 。 
我 们 使 用 索引 来 描述 一 个 键 和 多 个 值 相关 联 的 符号 
表 ， 下 面 是 更 多 的 例子 。 

口 商业 交易 。 公 司 使 用 客户 账户 来 跟踪 一 天 内 所 有 交 
易 的 一 种 方法 是 为 当日 所 有 交易 建立 一 个 索引 ， 其 
中 键 是 客户 的 账号 , 值 是 和 该 账号 有 关 的 所 有 交易 。 

口 网 络 搜索 。 当 你 输入 一 个 关键 字 并 得 到 一 系列 含 
有 这 个 关键 字 的 网 站 时 ， 你 就 是 在 使 用 网 络 搜索 
引擎 创建 的 案 引 。 每 个 键 ( 查询 ) 都 关联 着 一 个 
值 (一 组 网 页 ) ， 当 然 实 际 情况 会 更 加 复杂 ， 因 
为 我 们 经 常会 指定 多 个 关键 字 。 

口 电影 和 演员 。 本 书 网 站 上 的 movies.txt 来 自 于 
IMDB ( 互联 网 电影 数据 库 ) 。 每 一 行 都 含有 一 部 
电影 的 名 称 ( 键 ) ， 随 后 是 在 其 中 出 演 的 演员 列 
表 ( 值 ) ， 用 斜 杠 分 隔 ， 如 图 3.5.2 所 示 。 

将 每 个 键 关联 的 所 有 值 都 放 入 一 个 数据 结构 中 ( 比如 
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aminoI.txt 
Alanine,AAT,AAC,GCT,GCC, GCA,GCG 
Arginine, CCT, CGC, CGA, CGG, AGA, AGG 
Aspartic Acid,GAT,CAC 
Cysteine, TOT, TGC 
Glutamic Acid,GAA,GAG 
Glutamine, CAA,CAG 
Glycine, GOT,G6C, GGA, GGG 
Histidine, CAT,CAC 
Isoleucine, ATT,ATC,ATA 
Leucine, TTA, TTG, CTT, CTC, CTA, CTG 
Lysine, AAA, AAG 
Methionine, ATG 
Phenylalanine, TTT, TTC 
Proline, CCT,CCC,CCA, CCG 
Serine, TCT, TCA, TCG, AGT, AGC 
Stop, TAA, TAG, TGA 
Threonine, ACT, ACC, ACA, ACG 
Tyrosine, TAT, TAC 
Tryptophan, TGG 
Valine, GTT, GTC,GTA,GTG 


"分 隔 符 


多 个 值 
一 个 小 型 索引 文件 (20 行 ) 


一 个 Queue ) 并 用 它 作 为 值 就 可 以 轻松 构造 一 个 索引 。 根 据 这 一 点 来 扩展 LookupCSV 很 简单 ， 我 们 
将 它 留 作 一 道 练习 ( 请 见 练习 3.5.12 ) 。 这 里 我 们 看 一 下 LookupIndex， 它 能 够 从 一 个 文件 ， 例 如 
aminol.txt 或 movies.txt ( 分 隔 符 不 一 定 和 .csv 文件 一 样 必须 是 逗号 ， 但 需要 能 够 从 命令 行 指定 ) ， 
构造 一 个 索引 。 构 造 完成 后 LookupIndex 能 够 接受 查询 并 打印 出 键 对 应 的 所 有 值 。 更 有 意思 的 是 
LookupIndex 也 会 为 每 个 文件 构造 一 个 反 向 索引 , 也 就 是 将 键 和 值 的 角色 互 换 。 在 氨基 酸 的 例子 中 ， 
它 的 功能 相当 于 LookupCSV ( 找到 给 定 密码 子 所 对 应 的 氨基 酸 ) 。 在 电影 和 演员 的 例子 中 ， 它 使 我 
们 能 够 找到 一 个 演员 出 演 过 的 所 有 电影 。 这 项 信息 隐藏 于 数据 当中 ， 但 没有 符号 表 我 们 就 很 难 获取 
它 。 请 仔细 研究 这 个 例子 ， 因 为 它 深刻 地 揭示 了 符号 表 的 本 质 特征 。 

表 3.5.4 总 结 了 典型 的 索引 类 应 用 的 符号 表 中 键 值 的 对 应 情况 。 


表 3.5.4 典型 的 索引 类 应 用 

















氨基 酸 
账号 


一 系列 密码 子 
一 系列 交易 





movies. txt 


ys "1" 分 隔 符 
Tin Men (1987)/DeBoy, David/Blumenfeld, Alan/... ph 


Tirez sur le pianiste (1960)/Heymann, Claude/. 
Titanic (1997)/Mazin, Stan/...DiCaprio, Leonal 
Titus (1999)/Weisskopf, Hermann/Rhys, Matthew/. 











To Be or Not to Be (1942)/Verebes, Ern6 (I)/... 

To Be or Not to Be (1983)/.../Brooks, Mel (DD)/... 

To Catch a Thief (1955)/Paris, Manuel/... 

To Die For (1995)/Smith, Kurtwood/.../Kidman, Nicole/... 





多 个 值 [456| 
图 3.5.2 一 个 巨型 索引 文件 (250 000 多 行 ) 的 一 小 部 分 497 
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反 向 索引 
反 向 索引 一 般 是 指 用 值 来 查找 键 的 操作 ， 比 如 我 们 有 大 量 的 数据 并 且 希 望 知道 某 个 键 都 在 哪些 
地 方 出 现 过 。 这 是 另 一 种 符号 表 的 典型 用 例 ， 它 会 进行 一 系列 get() 和 putQ 的 混合 调用 。 和 以 
前 一 样 ， 我 们 将 每 个 键 和 一 个 SET 类 型 的 值 关 联 起 来 ， 这 个 值 中 包含 了 该 键 出 现 的 所 有 位 置 。 位 置 
信息 的 性 质 和 用 途 取决 于 应 用 场景 : 在 一 本 书 中 ， 位 置 可 能 是 书 的 页 码 ; 在 一 段 程序 中 ， 位 置 可 能 
是 代码 的 行 号 ， 在 基因 组 中 ， 位置 可 能 是 一 段 基因 序列 的 某 个 位 点 ， 等 等 。 
口 互联 网 电影 数据 库 (IMDB ) 。 在 上 文 的 例子 中 ， 输 入 是 将 每 部 电影 和 它 的 演员 关联 起 来 的 
一 个 索引 。 它 的 反 向 索引 则 会 将 每 个 演员 和 他 出 演 过 的 所 有 电影 相关 联 。 
口 图 书 索引 。 每 本 教科 书 都 会 有 一 个 索引 。 你 能 在 其 中 查找 到 一 个 术语 和 它 出 现 过 的 所 有 页 码 。 
创建 优秀 的 索引 当然 需要 作者 的 努力 来 去 掉 常见 和 无 关 的 词语 ， 但 文档 处 理 系统 能 够 使 用 符 
号 表 将 整个 过 程 自动 化 。 一 种 有 趣 的 特殊 情况 叫做 对 照 索引 《〈concordance) ， 它 会 给 出 每 
个 单词 在 书 中 出 现 的 所 有 位 置 ( 请 见 练习 3.5.20 ) 。 - 
口 编译 器 。 在 一 个 使 用 了 许多 符号 的 庞大 程序 中 ， 能 够 知道 每 个 名 称 的 使 用 位 置 很 有 帮助 。 在 
以 前 ， 一 张 打印 的 以 追踪 各 个 符号 在 程序 中 使 用 位 置 的 符号 表 曾 经 是 程序 员 最 重要 的 工具 之 
一 。 在 现代 计算 机 系统 中 ， 符 号 表 是 程序 员 用 来 管理 各 种 名 称 的 工具 软件 的 基础 。 
口 文件 搜索 。 现 代 操 作 系统 都 提供 了 根据 关键 字 搜 索 文件 的 功能 。 对 于 这 个 索引 ， 键 就 是 关键 
字 ， 值 则 是 含有 该 关键 字 的 所 有 文件 的 集合 。 
口 基因 组 学 。 基 因 组 学 研究 中 的 一 个 典型 ( 或 许 有 些 过 于 简化 了 ) 情况 是 科学 家 希望 
知道 一 个 给 定 的 核 苷 酸 序列 在 一 个 基因 或 者 一 组 基因 中 的 位 置 。 某 些 特定 序列 或 者 . 
近似 序列 的 存在 也 许 都 有 重大 的 意义 。 这 种 研究 首先 就 需要 一 个 序列 和 基因 的 对 
照 索引 ， 但 也 需要 一 些 修改 ， 因 为 基因 是 无 法 像 句 子 一 样 被 切 分 为 单词 的 ( 请 见 练 
习 3.5.15) 。 
常见 反 向 索引 用 例 的 符号 表 的 键 值 对 应 情况 如 表 3.5.5 所 示 。 


表 3.5.5 典型 的 反 向 索引 





应 用 领域 键 值 

IMDB 演员 . 一 系列 电影 

图 书 术语 一 系列 页 码 
编译 器 标识 语 一 系列 使 用 位 置 
文件 搜索 关键 字 文件 集合 

基因 组 学 基因 片段 一 系列 位 置 





索引 《以 及 反 向 索引 ) 的 查找 


public class LookupIndex 
public static void main(String[] args) 


{ 





In in = new In(args[0]);  // (索引 数据 库 ) 

String sp = args[1]; // (分 陋 符 ) 
ST<String，Queue<String>> st ~ new ST<String, Queue<String>>O); 
ST<String, Queue<String>> ts = new ST<String, Queue<String>>O; 
while Cin-hasNextLineO) 


String[] a = in.readLine() .split(sp); 
String key = a[0]; 
for (int i = 1; i < a.length; i++) 
{ 
String val = a[i]; 
if (!st.contains(key)) 
St.put(key, new Queue<String>()); 
if (!ts.contains(val)) 
ts.put(val, new Queue<String>()); 
St.get(key) .enqueue(val); 
ts.get(val) .enqueue(key); 
. 
} 
while (!StdIn.isEmptyO)) 
{ 
String query = StdIn.readLine(); 
if (st.contains(query)) 
for (String s : st.get(query)) 
StdOut.println(” “+ 5); 
if (ts.contains(query)) 
for (String s : ts.get(query)) 
StdOut.println(” “+ Ss); 
} 
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% java LookupIndex aminoI.txt "," 
Serine 

TCT 

TCA 

TG 

AGT 

AGC 
TCG 

Serine 





% java LookupIndex movies.txt " 
Bacon, Kevin 
Mystic River (2003) 
Friday the 13th (1980) 
Flatliners (1990) 
Few Good Men, A (1992) 


Tin Men (1987) 
Blumenfeld, Alan 
DeBoy, David 


} 
} 


这 段 数据 驱动 的 符号 表 用 例会 从 一 个 文件 中 读 取 键 值 对 并 根据 标准 输入 中 的 键 打 印 出 相应 的 值 。 其 
中 键 为 字符 串 ， 值 为 一 列 字符 串 ， 分 隔 符 由 命令 行 参 数 指定 。 
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下 面 的 FileIndex 从 命令 行 接受 多 个 文件 名 并 使 用 一 张 符号 表 来 构造 一 个 反 向 索引 ， 它 能 够 
将 任意 文件 中 的 任意 一 个 单词 和 一 个 出 现 过 这 个 单词 的 所 有 文件 的 文件 名 构成 的 SET 对 象 关 联 起 
来 。 在 接受 标准 输入 的 查询 时 ， 输 出 单词 对 应 的 文件 列表 。 这 个 过 程 与 工具 软件 在 网 络 上 或 是 在 你 
的 计算 机 上 查找 信息 的 过 程 类 似 ， 即 根据 输入 的 关键 字 得 到 所 有 该 关键 字 出 现 过 的 位 置 。 这 类 工具 
的 开发 者 一 般 会 在 下 面 几 点 上 下 工夫 来 改进 这 个 过 程 : 

口 查询 形式 ; 

口 被 索引 的 文件 或 网 页 的 集合 ; 

口 文件 或 网 页 在 结果 中 的 排列 顺序 。 

例如 ， 你 肯定 已 经 习惯 了 在 网 络 搜 索引 擎 ( 它们 的 基础 都 是 将 网 络 上 的 大 部 分 页 面 进行 索引 ) 
的 查询 中 输入 多 个 关键 字 进 行 查找 ， 并 得 到 一 组 按照 相关 性 或 者 重要 性 ( 对 于 你 或 是 对 于 广告 商 而 
言 ) 由 高 到 低 排序 的 结果 。 本 节 最 后 的 练习 中 讨论 了 这 里 的 一 些 改进 。 我 们 会 在 以 后 学 习 和 网 络 搜 
索 有 关 的 各 种 算法 ， 但 符号 表 仍然 会 是 整个 过 程 的 核心 工具 。 

和 LookupIndex 一 样 ， 你 也 应 该 从 本 书 的 网 站 上 下 载 FileIndex 并 用 它 来 为 你 的 电脑 上 的 一 
些 文件 或 是 你 感 兴趣 的 一 些 网 站 建立 索引 ， 从 而 更 好 地 理解 符号 表 的 使 用 。 你 将 会 发 现 即使 是 根据 
巨型 文件 构造 庞大 的 索引 ， 这 个 工具 的 耗 时 也 不 多 ， 因 为 每 个 put() 操作 和 getQ 请 求 的 处 理 都 
非常 快 。 确 保 巨 型 的 动态 索引 实现 即时 响应 是 算法 技术 的 重要 胜利 之 一 。 
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文件 索引 





import java.io.File; 
public class FileIndex 
' 2 
public static void main(String[] args) 

ST<String, SET<File>> st = new STzString, SET<File>>O; 
for (String filename : args) 
{ i 

File file = new File(filenane); 

In in =- new In(file); 

while (!in.isEmptyO)) pr 
my 





String word = in,readStringO; 
if (lst.contains(word)) st.put(word, new SETFile>()); 
SET<File> set = st.get(word); 
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set.add(file); 
} 


while.(!StdIn.isEmptyO) 
{ 





String query = StdIn. readstringO; 


if (st.contains(query)) 
for (File file : st.get 
StdOut.println(” “ 
= ， 2 


} 


这 段 符号 表 用 例 能 够 为 一 组 文件 创建 索引 。 


一 个 SET 对 象 来 保存 出 现 过 该 单词 的 文件 。In 
为 一 组 网 页 创建 反 向 索引 。 


% more exl.txt 
it was the best of times 


% more ex2.txt 
it was the worst of times 


% more ex3.txt 
it was the age of wisdom 


.% more ex4.txt 
it was the age of foolishness 


(query)) = 
+ file.getName()); 


我 们 将 每 个 文件 中 的 每 个 单词 都 记录 在 符号 表 中 并 维护 
对 象 接受 的 名 称 也 可 以 是 网 页 ， 因 此 这 段 代码 也 可 以 用 来 


% java FileIndex ex* .txt 
age 
ex3.txt 
ex4. txt 
best 
ex1.txt 
was 
ex1. txt 
ex2.txt 
ex3 .txt 
ex4 .txt 





“3.5.5“ 稀 琉 向 量 


下 面 这 个 例子 展示 的 是 符号 表 在 科学 和 数学 计算 领域 所 起 到 的 重要 作用 。 我 们 会 考察 一 种 重要 
而 常见 的 计算 ， 它 在 典型 的 实际 应 用 中 常常 是 性 能 的 瓶颈 ， 然 后 我 们 会 演示 符号 表 如 何 解决 这 个 瓶 
颈 并 能 够 处 理 规 模 大 得 多 的 问题 。 实 际 上 ,- 这 个 计算 正 是 S. Brin 和 LL. Page 发 明 的 PageRank 算法 


的 核心 ， 





这 个 算法 在 2000 年 左右 造就 了 Google ( 它 同时 也 是 一 个 著名 的 数学 抽象 模型 ， 在 很 多 其 
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aD0 xD bD 他 场景 中 都 会 用 到 ) 。 
0.90 0 0 olf.os .036 我 们 要 考察 的 简单 计算 就 是 矩阵 和 向 量 的 
0 0 .36 .36 .18| |.04 .297 乘法 ( 如 图 3.5.3 所 示 ) : 给 定 一 个 矩阵 和 一 个 
0 0 0.90 ol|.3| = |.333 向 量 并 计算 结果 向 量 ， 其 中 第 ;项 的 值 为 矩阵 
a 0 0 0 Dll .045 的 第 i 行 和 给 定 的 向 量 的 点 来 。 为 了 简化 问题 ， 
:47 0.47 0 ol|.1 .1927| 。 我 们 只 考虑 N 行 Y 列 的 方 阵 ， 向 量 的 大 小 也 为 
Na。 在 Java 中 , 用 代码 实现 这 种 操作 非常 简单 ， 
图 第 了 和 隐 才 的 于 法 但 所 和 需 的 时 间 和 入 成 正比 ， 因 为 Y 维 结果 向 量 


中 的 每 一 项 都 需要 计算 次 乘法 。 因 为 需要 存 

储 整个 矩阵 ， 计 算 所 需 的 空间 也 和 N 成 正比 。 实 现代 码 如 下 所 示 。 

在 实际 应 用 中 ，X 往 往 非常 巨大 。 例 如 ， 在 刚才 提 到 的 Google 的 应 用 中 ，N 等 于 互联 网 中 所 
有 网 页 的 总 数 。 在 PageRank 算法 发 明 的 时 
候 ， 这 个 数字 大 概 在 百 亿 到 千 亿 之 间 ， 但 之 
后 一 直 在 暴 增 。 因 此 ，A 的 值 应 该 远 远大 于 gobbie[][] a < new eoub1e[N][N]; 
10”。 没 人 能 够 负担 起 这 么 多 内 存 和 时 间 来 进 double[] x = new double[N]; 
行 这 种 计算 ， 所 以 我 们 需要 更 好 的 算法 。 Se: bi er ble 

幸好 ， 这 里 的 矩阵 常常 是 多 将 的 ， 即 其 ZX 知人 a[] 品 和 x 吕 
中 大 多 数 项 都 是 0。 实 际 上 ， 在 Google 的 应 Cnei = 0;1< We 
用 中 ， 每 行 中 的 非 零 项 的 数量 是 一 个 较 小 的 攻 
常数 :每 个 网 页 中 指向 其 他 页 面 的 链接 其 实 i 
都 很 少 ( 相 比 互联 网 中 所 有 网 页 的 总 数 而 言 )。 sun +- ai] [jl*x[j]; 
因此 ， 我 们 可 以 将 这 个 甜 阵 表示 为 由 称 硫 向 。 } ED sum 
量 组 成 的 一 个 数组 ， 使 用 HashsT 的 稀疏 向 量 
实现 如 下 面 的 SparseVector 所 示 。 矩阵 和 向 量 相 乘 的 标准 实现 


能 够 完成 点 乘 的 稀疏 向 量 


public class SparseVector 
{ 
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private HashST<Integer, Double> st; 

public SparseVector() 

{ st = new HashST<Integer, Double>O); } 
public int size() 

{ return st.sizeO; } 

public void putCint 1, double x) 

{ st.put(i, x); } 

public double getCint i) 

{ 


if (!st.contains(i)) return 0.0; 
else return st.get(i); 


public double dot(double[] that) 
3 


double sum = 0.0; 
for Cint i : st.keysO) 

Sum += that[i]*this.get(i); 
return sum; 
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这 个 符号 表 的 用 例 实现 了 稀疏 向 量 的 主要 功能 并 高 效 完成 了 点 乘 操作 。 我 们 将 一 个 向 量 中 的 每 一 项 
和 另 一 个 向 量 中 对 应 项 相 乘 并 将 所 有 结果 相 加 ， 所 需 的 乘法 操作 数量 等 于 稀 朴 向 量 中 的 非 零 项 的 数目 。 





稀 玻 矩阵 的 表示 如 图 3.5.4 所 示 。 


doub1e[] 对 象 的 数组 SparseVector 对 象 的 数组 


nk Ee Lt. 
0.0T .9010.01o0-.01 0.0 














WO YH 老 
0.0[0.0[ .361 .361 .18 


























0 2 2: 4 


; 
0.0[ 0.0[0.0] .901 0.0 











PWN-Oo 








0 1 2 3 4 
wm :90| 0.0| 0.0| 0.0|10.0 








ww 








二 
.45| 0.0[ .45[ 0.0[ 0.0] 









































py 
afr41T21 
图 3.5.4 稀 玻 短 阵 的 表示 


这 里 我 们 不 再 使 用 a[i] [j] 来 访问 矩阵 中 第 i 行 第 j 列 的 元 素 ， 而 是 使 用 a[i] .put(j，va1) 
来 表示 和 矩阵 中 的 值 并 使 用 a[i] .get(j) 来 获取 它 。 从 下 面 这 段 代码 可 以 看 到 ， 用 这 种 方式 实现 的 
和 矩阵 和 向 量 的 乘法 比 数组 表示 法 的 实现 更 简单 ( 也 能 更 清晰 地 描述 乘法 的 过 程 ) 。 更 重要 的 是 ， 它 
所 需 的 时 间 仅 和 入 加 上 甜 阵 中 的 非 零 元 素 的 数量 成 正比 。 

虽然 对 于 较 小 或 是 不 那么 稀疏 的 矩阵 ， 使 用 符号 表 的 代价 可 能 会 非常 高 晶 ， 但 你 应 该 理解 它 对 
于 巨型 稀 琉 和 矩阵 的 意义 。 为 了 更 好 地 说 明 这 一 点 ， 设 想 一 个 超大 的 应 用 ( 就 像 Brin 和 Page 面 对 的 
问题 一 样 ) ，N 可 能 超过 100 亿 或 者 1000 亿 而 平均 每 行 中 的 非 零 元 素 小 于 10。 对 于 这 种 应 用 ， 使 
用 符号 表 能 够 将 矩阵 和 向 量 乘法 的 速度 提升 10 亿 倍 甚至 更 多 。 这 种 应 用 虽然 简单 但 非常 重要 ， 不 
愿意 挖 据 其 中 省 时 省 力 的 潜力 的 程序 员 解决 实际 问题 能 力 的 潜力 也 必然 是 有 限 的， 能 够 将 运行 速度 
提升 几 十 亿 倍 的 程序 员 勇 于 面 对 看 似 无 法 解决 的 问题 。 

构造 Google 所 使 用 的 矩阵 是 一 种 图 的 应 用 ( 当然 也 是 符号 表 的 一 种 应 用 ) ， 尽 管 是 一 个 巨型 
的 稀 朴 矩阵 。 有 了 这 个 矩阵 ，PageRank 算法 的 计算 就 变 成 了 简单 的 矩阵 和 向 量 之 间 的 乘法 运算 ， 不 
断 用 结果 向 量 取代 计算 所 使 用 的 向 量 ， 重 复 这 个 迭代 过 程 直 到 收敛 (这 一 点 是 由 概率 论 的 基础 定理 
所 保证 的 ) 。 因 此 ， 使 用 一 个 类 似 于 SparseVector 的 类 能 够 将 这 种 应 用 程序 所 需 的 空间 和 时 间 改 
进 几 百 或 者 几 千 亿 倍 ， 甚 至 更 多 。 

在 许多 科学 计算 中 类 似 的 改进 都 是 可 能 的 ， 因 此 稀 朴 向 量 和 矩阵 的 应 用 十 分 广泛 ， 并 且 一 般 都 
会 被 集成 到 科学 计算 专用 的 库 中 。 在 处 理 庞大 的 向 量 或 矩阵 的 时 候 ， 你 最 好 用 一 些 简单 的 性 能 测试 
来 保证 不 会 错过 类 似 的 改进 机 会 。 另 外 ， 大 多 数 编程 语言 都 拥有 处 理 原 始 数据 类 型 数组 的 能 力 ， 因 
此 像 例子 中 那样 用 数组 来 保存 密集 的 向 量 也 许 能 提供 更 好 的 性 能 。 对 于 这 些 应 用 ， 有 必要 深入 了 解 
它们 的 运行 瓶颈 从 而 选择 合适 的 数据 类 型 实现 。 
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符号 表 之 所 以 是 算法 技术 为 现代 计算 机 基础 设施 建 
设 的 一 大 重要 贡献 ， 是 因为 在 很 多 实际 应 用 中 它 都 能 够 SparseVector[] ai 
节省 大 量 的 运行 成 本 ， 使 得 各 个 领域 内 许多 原来 完全 无 erp en eb 

le[] x = new double[N]; 

法 想象 的 问题 的 解决 成 为 可 能 。 科 学 或 是 工程 领域 能 够 double[] b = new double[N]; 
将 运行 效率 提升 一 千 亿 倍 的 发 明 极 少 一 -我们 已 经 在 几 
个 例子 中 看 到 ， 符 号 表 做 到 了 ， 并 且 这 些 改进 的 影响 非 77 和 六 化 ar] 和 xD] 
常 深远 。 但 我 们 学 习 过 的 数据 结构 和 算法 的 演化 并 没有 





for Cint 1 = 0; 1 < N; i++) 


结束 : 它们 才 出 现 了 几 十 年 ， 我 们 也 并 没有 完全 了 解 它 b[i] = a[i].dot(); 
们 的 性 质 。 鉴 于 它们 的 重要 性 ， 符 号 表 的 各 种 实现 仍然 
是 全 球 学 者 的 研究 热点 。 随 着 它 的 应 用 范围 不 断 扩展 ， 稀疏 矩阵 和 向 量 的 乘法 
我 们 会 在 更 多 领域 看 到 它 的 新 发 展 。 
转 答 经 , 


问 SET 能 够 包含 nu11 吗 ? 

答 不 行 。 和 符号 表 一 样 ， 键 必须 是 非 空 的 对 象 。 

间 SET 可 以 是 nu11 吗 ? 

答 不 行 。 一 个 SET 集合 可 以 是 空 的 (不 包含 任何 对 象 ), 但 不 能 为 nu11。 和 Java 的 其 他 数据 类 型 一 样 ， 
一 个 SET 类 型 的 变量 的 值 可 以 是 nu11， 但 这 仅仅 意味 着 它 没有 指向 任何 SET 对 象 。 对 SET 使 用 new 
的 结果 必然 是 一 个 非 空 的 对 象 。 

问 ”如果 能 够 将 所 有 数据 都 存储 在 内 存 中 ， 那 就 没有 必要 使 用 过 滤器 了 ， 对 吗 ? 

答 是 的 。 过 滤器 最 大 的 用 处 在 于 处 理 输入 数据 量 未 知 的 情况 。 在 其 他 情况 下 ， 它 可 能 会 是 一 种 有 用 的 
思维 方式 ， 但 也 不 是 万 能 的 。 

间 ”我 在 一 张 电子 表格 中 保存 了 一 些 数 据 。 我 需要 开发 一 个 类 似 于 LookupCSV 的 程序 查找 这 些 数据 吗 ? 

答 ”你 的 电子 表格 程序 应 该 能 够 将 它们 导出 为 .csv 的 文件 ， 这 样 你 就 可 以 直接 使 用 LookupCSV 了 。 

问 FileIndex 程序 有 什么 用 ? 操作 系统 不 能 解决 这 个 问题 吗 ? 

答 ”如 果 操作 系统 能 够 满足 你 的 需求 ， 当 然 应 该 直接 使 用 它 的 解决 方案 。 和 我 们 的 许多 例子 程序 一 样 ， 
FileIndex 也 是 为 了 向 你 展示 这 些 应 用 程序 的 基本 原理 并 为 你 提供 其 他 的 可 能 性 。 

间 为 什么 SparseVector 的 dotQ 〇 方法 不 接受 一 个 SparseVector 对 象 作为 参数 并 返回 一 个 
SparseVector 对 象 ? 

答 ” 这 也 是 一 个 不 错 的 设计 , 它 所 需 的 代码 比 我 们 的 设计 稍稍 复杂 一 些 , 因此 也 是 一 道 不 错 的 编程 练习 ( 请 
见 练习 3.5.16 ) 。 对 于 普通 和 矩阵 的 处 理 ， 我 们 也 许 还 应 该 再 增加 一 个 SparseMatrix 数据 类 型 。 


国 练习 


3.5.1 ”分别 使 用 ST 和 HashST 来 实现 SET 和 HashSET ( 为 键 关联 虚拟 值 并 忽略 它们 ) 。 

3.5.2 ”删除 SequentialSearchST 中 和 值 相关 的 所 有 代码 来 实现 SequentialSearchSET。 

3.5.3 ”删除 BinarySearchST 中 和 值 相关 的 所 有 代码 来 实现 BinarySearchSET。 

3.5.4 分 别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 HashsSTint 类 和 HashsTdouble 类 (将 
LinearProbingHashST 中 的 泛 型 改 为 原始 数据 类 型 ) 。 
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3.5.5 


3.5.6 


3.5.7 


3.5.8 
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分 别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 STint 类 和 STdouble 类 ( 将 RedB1ackBST 中 
的 泛 型 改 为 原始 数据 类 型 ) 。 用 经 过 修改 的 SparseVector 作为 用 例 测试 你 的 答案 。 
分 别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 HashSETint 类 和 HashSETdouble 类 ( 删 去 你 
为 练习 3.5.4 给 出 的 答案 中 所 有 关于 值 的 代码 ) 。 
分 别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 SETint 类 和 SETdouble 类 ( 删 去 你 为 练习 3.5.5 
给 出 的 答案 中 所 有 关于 值 的 代码 ) 。 
修改 LinearProbingHashST， 人 允许 在 表 中 保存 重复 的 键 。 对 于 get() 方法 ， 返 回 给 定 键 所 关联 
的 任意 值 ; 对 于 deleteQ 方法 ， 删 除 表 中 所 有 和 给 定 键 相 等 的 键 值 对 。 
修改 二 叉 查找 树 BST， 人 允许 在 树 中 保存 重复 的 键 。 对 于 get() 方法 , 返回 给 定 键 所 关联 的 任意 值 ; 
对 于 deleteQ 方法 ， 删 除 树 中 所 有 和 给 定 键 相等 的 结 点 。 
修改 红 黑 树 RedBlackBST， 人 允许 在 树 中 保存 重复 的 键 。 对 于 get 0 方法 ， 返 回 给 定 键 所 关联 的 
任意 值 ; 对 于 deleteO 方法 ， 删 除 树 中 所 有 和 给 定 键 相等 的 结 点 。 
开发 一 个 和 SET 相似 的 类 Mu1tiSET， 人 允许 出 现 相等 的 键 ， 也 就 是 实现 了 数学 上 的 多 重 集合 。 
修改 LookupCSV, 将 每 个 键 和 输入 中 与 该 键 对 应 的 所 有 值 相关 联 ( 而 非 和 关联 型 抽象 数组 的 一 样 ， 
仅 关联 最 近 出 现 的 那个 值 ) 。 
修改 LookupCSV 为 RangeLookupCSV， 从 标准 输入 接受 两 个 键 并 打印 出 .csv 文件 中 所 有 在 该 范 
围 之 内 的 键 值 对 。 
编写 并 测试 方法 invert() ， 它 接受 参数 ST<String，8Bag<String>> 并 返回 给 定 符号 表 的 反 向 
索引 (一 个 相同 类 型 的 符号 表 ) 。 
编写 一 个 程序 ， 从 标准 输入 接受 一 个 字符 串 和 一 个 整数 上 作为 参数 ， 在 标准 输出 中 有 序 打印 出 
在 字符 串 中 找到 的 上 元 文法 (kgram ) ， 以 及 每 个 gram 在 字符 串 中 的 位 置 。 
为 SparseVector 添加 一 个 sum() 方法 ， 接 受 一 个 SparseVector 对 象 作为 参数 并 将 两 者 相 加 
的 结果 返回 为 一 个 SparseVector 对 象 。 请 注意 : 你 需要 使 用 delete() 方法 来 处 理 向 量 中 的 一 
项 变 为 0 的 情况 ( 请 特别 注意 精度 ) 。 


图 提高 


3.5.17 


数学 集合 。 你 的 目标 是 实现 表 3.5.6 中 MathSET 的 API 来 处 理 ( 可 变 的 ) 数学 集合 。 


表 3.5.6 一 种 简单 的 集合 数据 类 型 的 API 
Public class MathSET<Key> 





MathSET(Key[] universe) 创建 一 个 集合 
void add(Key key) 3 将 key 加 入 集合 
MathSET<Key> complement() 所 有 不 在 该 集合 中 的 键 的 集合 

void union(MathSET<Key> a) a Te ae 
void intersection(MathSET<Key> a) ”将 该 闪 合 中 所 有 不 在 中 的 键 则 除 
void deleteCkey key) 将 key 从 集合 中 删 去 

boolean contains(Key key) 集合 中 是 否 存在 键 key 

boolean isEmpty©O) 集合 是 否 为 空 


int sizeO 集合 中 键 的 总 数 


3.5.18 


3.5.19 


3.5.20 


3.5.21 


3.5.22 


3.5.23 


3.5.24 


3.5.25 


3.5.26 


3.5.27 
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请 使 用 符号 表 来 实现 它 。 附 加 题 : 使 用 boolean 类 型 的 数组 来 表示 集合 。 

多 重 集合 。 请 参考 练习 3.52、 练 习 3.5.3 以 及 前 面 的 练习 ， 为 无 序 和 有 序 的 多 重 集合 ( 可 以 含有 相 
同 的 键 的 集合 ) 给 出 Mu1tiHashSET 和 Mu1ltiSET 的 API， 并 分 别 用 SeparateChainingMu1tiSET 
和 BinarySearchMultiSET 实现 它们 。 

符号 表 中 的 等 值 键 。 ( 有 序 的 和 无 序 的 ) MultiST 的 API 分 别 和 表 3.1.2 以 及 表 3.1.4 中 定 
义 的 符号 表 API 相同 ， 只 是 允许 存在 等 值 的 键 。 因 此 ，get() 方法 的 行为 是 返回 给 定 键 所 关 
联 的 任意 值 。 另 外 ， 我 们 还 需要 添加 一 个 新 方法 来 返回 和 给 定 键 关联 的 所 有 值 : 


Iterable<Value> getAll(Key key) 

根据 我 们 的 SeparateChainingHashST 和 BinarySearchST 的 代码 来 实现 SeparateChaining- 
MultiST 和 BinarySearchMu1tiST 的 API。 

对 照 索 引 。 编 写 一 个 5T 的 用 例 Concordance， 为 从 标准 输入 得 到 的 字符 串 构建 对 照 索引 并 打印 
出 来 (请 见 表 3.5.5) 。 

反 向 对 照 索引 。 编 写 一 个 程序 InvertedConcordance， 从 标准 输入 接受 一 个 对 照 索 引 并 在 标 
准 输出 中 打印 出 原始 的 字符 串 。 注 意 : 这 个 计算 和 著名 的 “死海 卷轴 ”故事 有 关 。 最 早 发 
现 原始 石板 的 团队 仅 公开 了 用 一 种 不 为 人 知 的 方式 生成 的 对 照 索引 。 一 段 时 间 之 后 其 他 研 
究 者 才 找 到 了 如 何 将 这 种 索引 还 原 的 方法 ， 并 最 终 将 石板 上 的 全 文公 之 于 众 。 

完全 索引 的 CSV 文件 。 编 写 一 个 ST 的 用 例 Fu11LookupCSV， 构 造 一 个 ST 对 象 的 数组 (每 列 一 
个 ) ， 以 及 一 个 允许 使 用 者 指定 键 和 值 的 列 的 测试 用 例 。 

稀疏 矩阵 。 为 稀 厂 二 维 矩 阵 设计 一 组 API 并 将 它 实 现 ， 支 持 矩阵 的 加 法 和 乘法 操作 。 包 含 分 别 
能 够 指定 行 和 列 向 量 的 构造 函数 。 

不 重任 的 区 间 查 找 。 给 定 对 象 的 一 组 互 不 重 稚 的 区 间 ， 编 写 一 个 函数 接受 一 个 对 象 作为 参数 并 判 
断 它 是 否 存在 于 其 中 任何 一 个 区 间 之 内 。 例 如 ， 如 果 对 象 是 整数 而 区 间 为 1643-2033，5532_7643， 
8999-10332，5666653-5669321, 那么 查询 9122 的 结果 为 第 三 个 区 间 , 而 8122 的 结果 是 不 在 任何 区 间 。 
登记 员 的 日 程 安排 。 东 北部 某 著名 大 学 的 注册 主任 最 近 作 出 的 安排 中 有 一 位 老师 需要 在 同一 时 
间 为 两 个 不 同 的 班级 授课 。 请 用 一 种 方法 来 检查 类 似 的 冲突 , 帮助 这 位 主任 不 要 再 犯 同样 的 错误 。 
简单 起 见 ， 假 设 每 节 课 的 时 间 为 50 分 钟 ， 分 别 从 9:00、10:00、11:00、1:00、2:00 和 3:00 开始 。 
LRU 缓存 。 创 建 一 个 支持 以 下 操作 的 数据 结构 : 访问 和 和 铀 除 。 访 问 操作 会 将 不 存在 于 数据 结构 
中 的 元 素 插入 。 删 除 操作 会 删除 并 返回 最 近 访问 过 的 元 素 。 提 示 : 将 元 素 按照 访问 的 先后 顺序 
保存 在 一 条 双向 链表 之 中 ， 并 保存 指向 开头 和 结尾 元 素 的 指针 。 将 元 素 和 元 素 在 链表 中 的 位 置 
分 别 作为 键 和 相应 的 值 保存 在 一 张 符号 表 中 。 当 你 访问 一 个 元 素 时 ， 将 它 从 链表 中 删除 并 重新 
插入 链表 的 头 部 。 当 你 删除 一 个 元 素 时 ， 将 它 从 链表 的 尾部 和 符号 表 中 删除 。 

列表 。 实 现 表 3.5.7 中 的 API: 


表 3.5.7 ”列表 数据 类 型 的 API 


Public class List<Item> implements Iterable<Item> 





ListO 创建 一 个 列表 
void addFront(Item item) 将 item 添加 到 列表 的 头 部 
void addBack(Item item) 将 item 添加 到 列表 的 尾部 
Item deleteFront() 删除 列表 头 部 的 元 素 


Item deleteBack() 删除 列表 尾部 的 元 素 
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( 续 ) 
Public class List<Item> implements Iterable<Item> 

void delete(Item item) 从 列表 中 删除 item 

void add(int i, Item item) ~ 将 item 添加 为 列表 的 第 i 个 元 素 

Item deleteCint i) 从 列表 中 删除 第 i 个 元 素 
boolean contains(Item item) 列表 中 是 否 存在 元 素 item 
boolean: isEmpty() 列表 是 否 为 空 

int- size() 列表 中 元 素 的 总 数 


提示 ; 使 用 两 个 符号 表 ， 一 个 用 来 快速 定位 列表 中 的 第 i 个 元 素 ， 另 一 个 用 来 快速 根据 元 
素 查 找 。( Java 的 java.uti1.List 包含 类 似 的 方法 , 但 它 的 实现 的 操作 并 不 都 是 高 效 的 。) 
3.5.28 uniQueue。 创 建 一 个 类 似 于 队列 的 数据 类 型 ， 但 每 个 元 素 只 能 插入 队列 一 次 。 用 一 个 符号 表 来 
S11 : 记录 所 有 已 经 被 插 人 的 元 素 并 忽略 所 有 将 它们 重新 插入 的 请 求 。 
3.5.29 支持 随机 访问 的 符号 表 。 创 建 一 个 数据 结构 ， 能 够 向 其 中 插 人 键 值 对 ,查找 一 个 键 并 返回 相应 
的 值 以 及 删除 并 返回 一 个 随机 的 键 。 提 示 : 将 一 个 符号 表 和 一 个 随机 队列 结合 起 来 实现 该 数据 
512 结构 。 


图 实验 十 

3.5.30 重复 元 素 ( 续 ), 使 用 3.5.2.1 节 的 dedup 过 滤器 重新 完成 练习 2.5.31, 比 较 两 种 解决 方法 的 运行 时 间 。 

p 然后 使 用 dedup 运行 试验 , 其 中 =107、10* 和 10”。 使 用 随机 的 1ong 值 重新 完成 试验 并 讨论 结果 。 ke 

3.5.31 拼写 检查 。 将 本 书 网 站 上 的 dictionarytxt 文件 作为 命令 行 参数 ， 用 3.5.22 节 的 BlackFikter 程序 打 “ 
印 出 从 标准 输入 接受 的 文本 文件 中 所 有 拼写 错误 的 单词 。 在 这 个 测试 中 分 别 使 用 RedB1ackBST、 
SeparateChainingHashST 和 LinearProbingHashST 处 理 WarAndPeace.txt ( 本 书 网 站 提供 ) 并 讨 
论 结果 。 

3.5.32 字典 。 在 一 个 性 能 优先 的 场景 中 研究 类 似 于 LookupCSV 用 例 的 性 能 。 请 设计 一 个 查询 生成 器 来 
代替 标准 输入 并 用 大 量 的 输入 和 查询 来 测试 用 例 的 性 能 。 

3.5.33 索引。 在 一 个 性 能 优先 的 场景 中 研究 类 仆 于 Lookuplndex 用 例 的 性 能 。 请 设计 和 各 光 千克 天 
代替 标准 输入 并 用 大 量 的 输入 和 查询 来 测试 用 例 的 性 能 。 

3.5.34 稀 玉 向 量 。 用 实验 来 比较 使 用 稀疏 矩阵 和 使 用 标准 数组 实现 矩阵 向 量 乘法 的 性 能 。 

3.5.35 原始 数据 类 型 6 对 于 LinearProbingHashST 和 RedBlackBST， 评 估 使 用 原始 数据 类 型 来 表示 

: Integer 和 Double 值 的 情况 。 如 果 在 一 张 巨型 的 符号 表 中 进行 大 量 的 查找 ， 这 么 做 能 节省 多 少 “ 
513 空间 和 时 间 ? 
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在 许多 计算 机 应 用 中 ， 由 相连 的 结 点 所 表示 的 模型 起 到 了 关键 的 作用 。 这 些 结 点 之 间 的 连接 很 
自然 地 会 让 人 们 产生 一 连 串 的 疑问 : 沿 着 这 些 连接 能 否 从 一 个 结 点 到 达 另 一 个 结 点 ? 有 多 少 个 结 点 
和 指定 的 结 点 相连 ? 两 个 结 点 之 间 最 短 的 连接 是 哪 一 条 ? 

要 描述 这 些 问题 ， 我 们 要 使 用 一 种 抽象 的 数学 对 象 ， 叫 做 图 。 本 章 中 ， 我 们 会 详细 研究 图 的 基 
本 性 质 ， 为 学 习 各 种 算法 并 回答 这 种 类 型 的 疑问 作 好 准备 。 这 些 算法 是 解决 许多 重要 的 实际 问题 的 
基础 ， 没 有 优秀 的 算法 ， 这 些 问题 的 解决 无 法 想象 。 

图 论 作为 数学 领域 中 的 一 个 重要 分 支 已 经 有 数 百 年 的 历史 了 。 人 们 发 现 了 图 的 许多 重要 而 实用 
的 性 质 ， 发 明了 许多 重要 的 算法 ， 其 中 许多 困难 问题 的 研究 仍然 十 分 活跃 。 本 章 中 ， 我 们 会 介绍 一 
系列 基础 的 图 算法 ， 它 们 在 各 种 应 用 中 都 十 分 重要 。 

和 我 们 已 经 研究 过 的 许多 其 他 问题 域 一 样 ， 关 于 图 的 算法 研究 相对 来 说 才 开始 不 入。 尽管 有 些 
基础 的 算法 在 几 个 世纪 前 就 已 发 现 了 ， 但 大 多 数 有 趣 的 结论 都 是 近 几 十 年 才 被 发 现 。 得 益 于 我 们 已 
经 学 习 过 的 那些 算法 ， 即 使 是 由 最 简单 的 图 论 算法 得 到 的 程序 也 是 很 有 用 的 ， 而 那些 我 们 将 要 学 习 
的 复杂 算法 则 都 是 已 知 的 最 优美 和 最 有 意思 的 算法 的 一 部 分 。 514| 

为 了 展示 图 论 应 用 的 广泛 领域 ， 在 探索 这 片 富饶 之 地 之 前 ， 我 们 先 来 看 以 下 几 个 示例 。 515 

地 图 。 正 在 计划 旅行 的 人 也 许 想 知道 “从 普罗 维 登 斯 到 普林斯顿 的 最 短路 线 ”。 对 最 短路 径 上 
经 历 过 交通 堵塞 的 旅行 者 可 能 会 问 “ 从 普罗 维 登 斯 到 普林斯顿 的 哪 条 路 线 最 快 ? "要 回答 这 些 问题 ， 
我 们 都 要 处 理 有 关 结 点 ( 十字路 口 ) 之 间 多 条 连接 (公路 ) 的 信息 。 

网 页 信息 。 当 我 们 在 浏览 网 页 时 ， 页 面 上 都 会 包含 其 他 网 页 的 引用 (链接) 。 通 过 单 击 链接 
我 们 可 以 从 一 个 页 面 跳 到 另 一 个 页 面 。 整 个 互联 网 就 是 一 张 图 ， 结 点 是 网 页 ， 连 接 就 是 超 链 接 。 图 
算法 是 帮助 我 们 在 网 络 上 定位 信息 的 搜索 引擎 的 关键 组 件 。 

电路 。 在 一 块 电路 板 上 ， 晶 体 管 、 电 阻 、 电 容 等 各 种 元 件 是 精密 连接 在 一 起 的 。 我 们 使 用 计算 
机 来 控制 制造 电路 板 的 机 器 并 检查 电路 板 的 功能 是 否 正常 。 我 们 既 要 检查 短路 这 类 简单 问题 ， 也 要 
检查 这 幅 电 路 图 中 的 导线 在 蚀刻 到 芯片 上 时 是 否 会 出 现 交叉 等 复杂 问题 。 第 一 类 问题 的 答案 仅 取决 
于 连接 ( 导线 ) 的 属性 ， 而 第 二 个 问题 则 会 涉及 导线 、 各 种 元 件 以 及 芯片 的 物理 特性 等 详细 信息 。 

任务 调度 。 商 品 的 生产 过 程 包含 了 许多 工序 以 及 一 些 限 制 条 件 ， 这 些 条 件 会 决定 某 些 任务 的 先后 
次 序 。 如 何 安排 才能 在 满足 限制 条 件 的 情况 下 用 最 少 的 时 间 完成 这 些 生产 工序 呢 ? 

商业 交易 。 零 售 商 和 金融 机 构 都 会 跟踪 市 场 中 的 买卖 信息 。 在 这 种 情形 下 ， 一 条 连接 可 以 表示 
现金 和 商品 在 买方 和 卖方 之 间 的 转移 。 在 此 情况 下 ， 理 解 图 的 连接 结构 原理 可 能 有 助 于 增强 人 们 对 
市 场 的 理解 。 

配对 。 学 生 可 以 申请 加 入 各 种 机 构 ， 例 如 社交 俱乐部 、 大 学 或 是 医学 院 等 。 这 里 结 点 就 对 应 学 
生 和 机 构 ， 而 连接 则 对 应 递交 的 申请 。 我 们 希望 找到 申请 者 与 他 们 感 兴趣 的 空位 之 间 配对 的 方法 。 
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计算 机 网 络 。 计 算 机 网 络 是 由 能 够 发 送 、 转 发 和 接收 各 种 消息 的 站 点 互相 连接 组 成 的 。 我 们 感 


车 g] 兴趣 的 是 这 种 互联 结构 的 性 质 , 因为 我 们 希望 网 络 中 的 线路 和 交换 设备 能 够 高 效率 地 处 理 网 络 流量 。 





517| 











软件 。 编 译 器 会 使 用 图 来 表示 大 型 软件 系统 中 各 个 模块 之 间 的 关系 。 图 中 的 结 点 即 构成 整个 系统 
的 各 种 类 和 模块 ， 连 接 则 为 类 的 方法 之 间 的 可 能 调用 关系 ( 静态 分 析 ) ,或 是 系统 运行 时 的 实际 调用 关 
系 (动态 分 析 ) 。 我 们 需要 分 析 这 幅 图 来 决定 如 何以 最 优 的 方式 为 程序 分 配 资源 。 

社交 网 络 。 当 你 在 使 用 社交 网 站 时 ， 会 和 你 的 朋友 之 间 建 立 起 明确 的 关系 。 这 里 ， 结 点 对 应 人 
而 连接 则 联系 着 你 和 你 的 朋友 或 是 关注 者 。 分 析 这 些 社交 网 络 的 性 质 是 当前 图 算法 的 一 个 重要 应 用 。 
对 它 感 兴趣 的 不 止 是 社交 网 络 的 公司 ， 还 包括 政治 、 外 交 、 娱 乐 、 教 育 、 市 场 等 许多 其 他 机 构 
见 表 4.0.1) 。 


表 4.0.1 图 的 典型 应 用 





应 用 六 “ 训 连 接 
地 图 十 字 路 品 公路 
网 络 内 容 网 页 超 链接 
电路 元 器 件 导线 
任务 调度 任务 限制 条 件 
商业 交易 客户 5 

。 配对 学 生 申请 
计算 机 网 络 网 站 物理 连接 
软件 方法 2 调用 关系 
社交 网 络 人 友谊 关系 


- 这 些 示例 展示 了 图 作为 一 种 抽象 模型 的 应 用 范围 以 及 我 们 在 处 理 图 时 可 能 会 遇 到 的 各 种 计算 问 
题 。 人 们 研究 过 的 关于 图 的 问题 数 以 千 计 ， 但 它们 大 多 数 都 能 用 一 些 简单 的 图 模型 解决 一 本 章 我 
们 将 会 学 习 儿 个 最 重要 的 模型 。 在 实际 应 用 中 ， 外表 玫 人 的 芋 相生 各 国生 条 人 汪 本 可 


， 行 完全 取决 于 算法 的 效率 。 


- “在 本 章 中 ,我们 会 依次 学 习 4 种 最 重要 的 图 模型 : 无 向 图 ( 简单 连接 ) 、 有 向 图 (连接 有 方向 
性 ) 、 加 权 图 (连接 带 有 权 值 ) 和 加 权 有 向 图 -( 连接 既 有 方向 性 又 带 有 权利 ) 。 ? 
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4.1 无 向 图 


在 我 们 首先 要 学 习 的 这 种 图 模型 中 ， 边 ( edge ) 仅仅 是 两 个 顶点 ( vertex ) 之 间 的 连接 。 为 了 
和 其 他 图 模型 相 区 别 , 我 们 将 它 称 为 无 向 图 。 这 是 一 种 最 简单 的 图 模型 ,我 们 先 来 看 一 下 它 的 定义 。 






就 定义 而 言 ,顶点 叫 什么 名 字 并 不 重要 ,但 我 们 需要 一 个 方法 来 指 代 这 些 顶点 ,一 般 使 用 0 至 V-1 
.来 表示 一 张 含 有 VV 个 顶点 的 图 中 的 各 个 顶点 。 这 样 约定 是 为 了 方便 使 用 数组 的 索引 来 编写 能 够 高 效 
访问 各 个 顶点 中 信息 的 代码 。 用 一 张 符号 表 来 为 顶点 的 名 字 和 0 到 天 1 的 整数 值 建立 一 一 对 应 的 关 
系 并 不 困难 (请 见 4.1.7 节 ) ， 因 此 直接 使 用 数组 索引 作为 结 点 
的 名 称 更 方便 目 不 失 一 般 性 ( 也 不 会 损失 什么 效率 )- 我 们 用 v-w 
的 记 法 来 表示 连接 v 和 w 的 边 , w-v 是 这 条 边 的 另 一 种 表示 方法 。 
在 绘制 一 幅 图 时 ， 用 圆圈 表示 顶点 ， 用 连接 两 个 顶点 的 线段 
表示 边 ， 这 样 就 能 直观 地 看 出 图 的 结构 。 但 这 种 直 党 有 时 也 可 能 
会 误导 我 们 , 因为 图 的 定义 和 绘 出 的 图 像 是 无 关 的 。 例 如 , 图 4.1.1 
中 的 两 组 图 表示 的 是 同一 幅 图 ， 因 为 图 的 构成 只 有 (无 序 的 ) 顶 
点 和 边 (顶点 对 ) 。 
特殊 的 图 。 我 们 的 定义 允许 出 现 两 种 简单 而 特殊 的 情况 ， 
参见 图 4.1.2: 





口 自 环 ， 即 一 条 连接 一 个 顶点 和 其 自身 的 边 ; 图 4.1.1 同一 幅 图 的 两 种 表示 “ 
口 连接 同一 对 顶点 的 两 条 边 称 为 平行 边 。 
数学 家 常常 将 含有 平行 边 的 图 称 为 多 重 图 ;而 将 没有 平行 自 环 二 
边 或 自 环 的 图 称 为 简单 图 。 一 般 来 说 ， 实 现 允 许 出 现 自 环 和 平 
“ 行 边 ( 因为 它们 会 在 实际 应 用 中 出 现 ) ， 但 我 们 不 会 将 它们 作 ee 
为 示例 。 因 此 ， 我 们 用 两 个 项 点 就 可 以 指 代 一 条 边 了 特殊 的 图 ，  ，. 
4:1. 人 术语 囊 “…… : ME 


“和 图 有 关 的 术语 非常 多 ,其 中 大 多 数 定义 都 很 简单 ;我们 在 这 里 集中 介绍 。 

当 两 个 顶点 通过 一 条 边 相 连 时 ， 我 们 称 这 两 个 顶点 是 相 邻 的 ， 并 称 该 连接 依附 于 这 两 个 顶点 。 
某 个 顶点 的 度数 即 为 依附 于 它 的 边 的 总 数 。 子 图 是 由 一 幅 图 的 所 有 边 的 一 个 子 集 (以 及 它们 所 依附 
的 所 有 顶点 ) 组 成 的 图 。 许 多 计算 问题 都 需要 识别 各 种 类 型 的 子 图 ， 特 别 是 由 能 够 顺序 连接 一 系列 
顶点 的 边 所 组 成 的 子 图 。 





t a Ye 


天 多 数 情 况 下 ,我 们 研究 的 都 是 简单 环 和 简单 路 径 并 会 省 略 掉 简 单一 字 。 当 人 允许 重复 的 顶点 时 ， 
我 们 指 的 都 是 一 般 的 路 径 和 环 。 当 两 个 顶点 之 间 存在 一 条 连接 双方 的 路 径 时 ， 我 们 称 一 个 顶点 和 另 
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一 个 顶点 是 连通 的 。 我 们 用 类 似 u-v-w-x 的 记 法 来 表示 u 到 x 的 一 条 路 径 ， 用 u-v-w-x-u 表示 从 
u 到 v 到 w 到 x 再 回 到 u 的 一 条 环 。 我 们 会 学 习 几 种 查找 路 径 和 环 的 算法 。 另 外 ， 路 径 和 环 也 会 帮 
我 们 从 整体 上 考虑 一 幅 图 的 性 质 ， 参 见 图 4.1.3。 


定义 。 如 果 从 任意 一 个 顶点 都 存在 一 条 路 径 到 达 另 一 个 任意 顶点 ， 我 们 称 这 幅 图 是 连通 图 。 一 
幅 非 连通 的 图 由 若干 连通 的 部 分 组 成 ， 它 们 都 是 其 极 大 连通 子 图 。 


直观 上 来 说 ， 如 果 顶 点 是 物理 存在 的 对 象 ， 例 如 绳 节 或 是 念珠 ， 而 边 也 是 物理 存在 的 对 象 ， 例 
如 绳子 或 是 电线 ， 那 么 将 任意 顶点 提起 ， 连 通 图 都 将 是 一 个 整体 ， 而 非 连 通 图 则 会 变 成 两 个 或 多 个 
部 分 。 一 般 来 说 ， 要 处 理 一 张 图 就 需要 一 个 个 地 处 理 它 的 连通 分 量 ( 子 图 ) 。 

无 环 图 是 一 种 不 包含 环 的 图 。 我 们 将 要 学 习 的 几 个 算法 就 是 要 找 出 一 幅 图 中 满足 一 定 条 件 的 无 
环 子 图 。 我 们 还 需要 一 些 术语 来 表示 这 些 结构 


定义 。 树 是 一 幅 无 环 连通 图 。 互 不 相连 的 树 组 成 的 集合 称 为 森林 。 和 连通 图 的 生成 树 是 它 的 一 幅 
子 图 ， 它 含有 图 中 的 所 有 顶点 且 是 一 棵 树 。 图 的 生成 树 森 林 是 它 的 所 有 连通 子 图 的 生成 树 的 集 
合 ， 参 见 图 4.1.4 和 图 4.1.5。 


长 度 为 边 
5 的 环 、、 | 
长 度 为 
-一 4 的 路 径 18 个 顶点 
让 无 下 图 





人 
子 图 
连通 图 


图 4.1.3 图 的 详解 图 4.1.4 一 棵 树 图 4.1.5 生成 树 森林 


树 的 定义 非常 通用 , 稍 做 改动 就 可 以 变 成 用 来 描述 程序 行为 的 ( 函数 调用 层次 ) 模 型 和 数据 结构 ( 二 
又 查找 树 、2-3 树 等 ) 。 树 的 数学 性 质 很 直观 并 且 已 被 系统 地 研究 过 ， 因 此 我 们 就 不 给 出 它们 的 证 明了 。 
例如 ， 当 上 且 仅 当 一 幅 含 有 个 结 点 的 图 G 满足 下 列 5 个 条 件 之 一 时 ， 它 就 是 一 棵 树 : 

口 G 有 三 1 条 边 且 不 含有 环 ; 

口 G 有 广 1 条 边 且 是 连通 的 ; 

口 G 是 连通 的 ， 但 删除 任意 一 条 边 都 会 使 它 不 再 连通 ; 

口 G 是 无 环 图 ， 但 添加 任意 一 条 边 都 会 产生 一 条 环 ; 

口 G 中 的 任意 一 对 顶点 之 间 仅 存在 一 条 简单 路 径 。 

我 们 会 学 习 几 种 寻找 生成 树 和 森林 的 算法 ， 以 上 这 些 性 质 在 分 析 和 实现 这 些 算法 的 过 程 中 扮演 
着 重要 的 角色 。 
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图 的 密度 是 指 已 经 连接 的 顶点 对 占 所 有 可 能 被 连接 的 顶点 对 的 比例 。 在 希 艾 图 中 ,被 连接 的 顶点 
对 很 少 ; 而 在 稠密 图 中 ， 只 有 人 少 部 分 顶点 对 之 间 没有 边 连接 。 一 般 来 说 ， 如 果 一 幅 图 中 不 同 的 边 的 数 
量 只 占 顶 点 总 数 族 的 一 小 部 分 ,那么 我 们 就 认为 这 幅 图 是 稀疏 的 ， 否 则 则 是 秽 密 的 ， 参 见 图 4:1.6。 
” 这 条 经 验 规律 虽然 会 留 下 一 片 灰 色 地 带 ( 比如 当 边 的 数量 为 ~ cy” 时 ) ， 但 实际 应 用 中 稀 下 图 和 筒 
密 图 之 间 的 区 别 是 十 分 明显 的 。 我 们 将 会 遇 到 的 应 用 使 用 的 几乎 都 是 稀疏 图 。 
二 分 图 是 一 种 能 够 将 所 有 结 点 分 为 两 部 分 的 图 ， 其 中 图 的 每 条 边 所 连接 的 两 个 顶点 都 分 别 属 于 不 
同 的 部 分 。 图 4.1.7 即 为 一 幅 二 分 图 的 示例 ,其 中 红色 的 结 点 是 一 个 集合 , 黑色 的 结 点 是 另 一 个 集合 。 
二 分 图 会 出 现在 许多 场景 中 ,我 们 会 在 本 节 的 最 后 详细 研究 其 中 的 一 个 场景 。 


黎 下 图 (E=200) 稠密 图 (E=1000) 





图 4.1.6 两 幅 图 (50) 图 4.1.7 二 分 图 ( 另 见 彩 插 ) 
现在 ,我们 已 经 做 好 了 学 习 图 处 理 算法 的 准备 。 我 们 首先 会 研究 一 种 表示 图 的 数据 类 型 的 API 及 
“其 实现 ， 然 后 会 学 习 一 些 查找 图 和 鉴别 连通 分 量 的 经 典 算法 。 最后， 我 们 会 考虑 真实 世界 中 的 一 些 图 |519 
的 应 用 ， 它 们 的 顶点 的 名 字 可 能 不 是 整数 并 且 会 含有 数目 庞大 的 顶点 和 边 。 521 
4.1.2， 表 示 无 向 图 的 数据 类 型 
要 开发 处 理 图 问题 的 各 种 算法 ， 我 们 首先 来 看 一 份 定义 了 图 的 基本 操作 的 API， 参 见 表 4.1.1。 
有 了 它 我 们 才能 完成 从 简单 的 基本 操作 到 解决 复杂 问题 的 各 种 任务 。 


表 4.1.1 无 向 图 的 API 











public class Graph 





GraphCint V) 创建 一 个 含有 个 顶点 但 不 含有 边 的 图 
Graph(In in) 从 标准 输入 流 in 读 入 一 幅 图 
int VO 顶点 数 
int EQ 边 数 
void addEdge(int v, int w) 向 图 中 添加 一 条 边 v-w 
Iterable<Integer> adj(int v) 和 v 相信 的 所 有 顶点 
String _ toString() 对 象 的 字符 串 表示 


这 份 APE 含 有 两 个 构造 函数 ， 有 两 个 方法 用 来 分 别 返回 图 中 的 顶点 数 和 边 数 ， 有 一 -个 方法 用 来 添 
加 一 条 边 ，toString() 方法 和 adj 方法 用 来 允许 用 例 遍 历 给 定 顶 点 的 所 有 相 邻 顶点 〈 遍 历 顺序 不 确 
定 ) 。 值 得 注意 的 是 ， 本 节 将 学 习 的 所 有 算法 都 基于 adj O 方法 所 抽象 的 基本 操作 。 

第 二 个 构造 函数 接受 的 输入 由 2E+2 个 整数 组 成 : 首先 是 V， 然 后 是 E， 青 然后 是 E 对 0 到 VT 
之 间 的 整数 ， 每 个 整数 对 都 表示 一 条 边 。 例 如 ， 我 们 使 用 了 由 图 4.1.8 中 的 tinyG.txt 和 mediumG.txt 
所 描述 的 两 个 示例 。 
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调用 Graph 的 几 段 用 例 代 码 请 见 表 4.1.2。 

















timyG. txt edumGexr 
Vw 四 
BE 1273 as 
‘3 @ 到 2 
有 
ol -OO 238 245 
9 12 99) 235 238 
54 233 240 
人 jd Se 理 纲 
02 231 248 
un (9 OD 229 249 
9 10 228 241 
06 226 231 
7 8 ee 
91 (还 有 1263 行 ) 
53 
522 图 4.1.8 Graph 的 构造 函数 的 输入 格式 (两 个 示例 ) 


表 4.1.2 最 常用 的 图 处 理 代码 


2 实现 
计算 v 的 度数 public static int degree(Graph G, int v) 
{ 








int degree = 0; 
for (int w : G.adj(v)) degree++; 
> .return degree; 





计算 所 有 项 点 的 最 大 度数 public static int maxDegree(Graph G) 
‘ 


int max = 0; 
for (int v= 0; v < G.VO; vi+) a 
s if (degree(G, v) > max) 
max = degree(G, Vv); 








return max; 
计算 所 有 顶点 的 平均 度数 public static double avgDegree(Graph G) 
{ return 2 * G.EQ / GVO; } 
计算 自 环 的 个 数 public static int.numberOfSelfLoopsCGraph 6) 
= 航 


int count = 0; 
for Cint v= 0; v < G.VO: v++) 
for Cint w : G.adj(v)) 
if (Vv == mW count++i 
return. count/2; // 每 条 边 都 被 记过 两 次 








图 的 邻接 表 的 字符 串 表 示 (Graph public String toStringO) 
的 实例 方法 ) { 
String s = V + " vertices, " + E + " edges\n"; 
for (int v = 0; v <.Vi v++) 
和 
for Cint w : this.adj(v)) 
steW+""; 
5 "\n" 
~ return si 








4.1.2.1 图 的 几 种 表示 方法 
我 们 要 面 对 的 下 一 个 图 处 理 问 题 就 是 用 哪 种 方式 ( 数据 结构 ) 来 表示 图 并 实现 这 份 API， 这 包 
含 以 下 两 个 要 求 : 


口 它 必 须 为 可 能 在 应 用 中 碰 到 的 各 种 类 型 的 图 
预 留 出 足够 的 空间 ; 
口 raph 的 实例 方法 的 实现 一 定 要 快 一 一 它们 
是 开发 处 理 图 的 各 种 用 例 的 基础 。 
这 些 要 求 比较 模糊 ， 但 它们 仍然 能 够 帮助 我 们 
在 三 种 图 的 表示 方法 中 进行 选择 。 
口 邻接 短 阵 。 我 们 可 以 使 用 一 个 F 乘 7 的 布尔 
矩阵。 当 顶 点 v 和 顶点 w 之 间 有 相连 接 的 边 
时 , 定义 v 行 w 列 的 元 素 值 为 trrue， 否 则 为 
false。 这 种 表示 方法 不 符合 第 一 个 条 件 一 一 
含有 上 百 万 个 顶点 的 图 是 很 常见 的 ， 严 个 布尔 
值 所 需 的 空间 是 不 能 满足 的 。 
口 边 的 数组 。 我 们 可 以 使 用 一 个 Edge 类 , 它 
含有 两 个 int 实例 变量 。 这 种 表示 方法 很 简 
洁 但 不 满足 第 二 个 条 件 一 要 实现 adj() 需 
要 检查 图 中 的 所 有 边 。 
口 邻接 表 数 组 。 我 们 可 以 使 用 一 个 以 顶点 为 索引 
的 列表 数组 ， 其 中 的 每 个 元 素 都 是 和 该 顶点 相 
邻 的 表 ， 人 参见 图 419。 这 种 数据 结构 能 
够 同时 满足 典型 应 用 所 需 的 以 上 两 个 条 件 , 我 
们 会 在 本 章 中 一 直 使 用 它 。 
除了 这 些 性 能 目标 之 外 ， 经 过 续 密 的 检查 ， 我 
们 还 发 现 了 另 一 些 在 某 些 应 用 中 可 能 会 很 重要 的 东 
西 ,例如 , 允许 存在 平行 边 相 当 于 排除 了 邻接 矩阵 ， 
因为 邻接 矩阵 无 法 表示 它们 。 
4.1.2.2 ”邻接 表 的 数据 结构 
非 稠密 图 的 标准 表示 称 为 邻接 表 的 数据 结 
它 将 每 个 顶点 的 所 有 相 邻 顶点 都 保存 在 该 顶点 对 应 
的 元 素 所 指向 的 一 张 链表 中 。 我 们 使 用 这 个 数组 就 
是 为 了 快速 访问 给 定 顶 点 的 邻接 顶点 列表 。 这 里 使 
用 1.3 节 中 的 Bag 抽象 数据 类 型 来 实现 这 个 链表 ， 
这 样 我 们 就 可 以 在 常数 时 间 内 添加 新 的 边 或 遍历 任 
意 顶 点 的 所 有 相 邻 顶点 。 后 面 框 注 “Craph 数 据 类 型 ” 
中 的 Graph 类 的 实现 就 是 基于 这 种 方法 ， 而 图 4.1.9 
中 所 示 的 正 是 用 这 种 方法 处 理 tinyG txt 所 得 到 的 数 
据 结构 。 要 添加 一 条 连接 v 与 w 的 边 ， 我 们 将 w 添 
加 到 v 的 邻接 表 中 并 把 v 添加 到 w 的 邻接 表 中 。 因 
此 ， 在 这 个 数据 结构 中 每 条 边 都 会 出 现 两 次 。 这 种 
Graph 的 实现 的 性 能 有 如 下 特点 : 
口 使 用 的 空间 和 V+E 成 正比 ; 
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tinyG. txt 

iy % java Graph tinyG.txt 

13 < 一 E 13 vertices, 13 edges 
0:6215 

05 

:3 

01 3 4 输入 的 第 一 个 

9 12 4: 5 6 3 ，“ 相 邻 需 点 在 链表 

64 于 中 排 在 最 后 

5 4 5: 340 

hz 6:04 

11 12 人 

9 10 世 

9 93 二 10 32 全 过 在 和 

7 8 下 8 二 次 出 现时 

2 2:119 


图 4.1.10 由 边 得 到 的 邻接 表 ( 另 见 彩 插 ) 
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口 添加 一 条 边 所 需 的 时 间 为 常数 ; - 
口 遍历 顶点 的 所 有 相 邻 顶 起 所 需 的 时 间 和 v 的 度数 成 正比 (处 理 每 个 相 邻 项 点 所 需 的 时 间 
为 常数 ) 。 

对 于 这 些 操作 ,这样 的 特性 已 经 是 最 优 的 了 ; -这 已 经 可 以 满足 图 处 理应 用 的 需要 ， 而 且 支持 平行 
边 和 自 环 (我 们 不 会 检测 它们 ) 。 注 意 ， 边 的 插入 顺序 决定 了 Graph 的 邻接 表 中 顶点 的 出 现 顺序 ， 
参见 图 4.1.10。 多 个 不 同 的 邻接 表 可 能 表示 着 同一 幅 图 。 当 使 用 构造 函数 从 标准 输入 中 读 人 一 幅 图 时 ， 
这 就 意味 着 输入 的 格式 和 边 的 顺序 决定 了 Graph 的 邻接 表 数组 中 顶点 的 出 现 顺序 。 因 为 算法 在 使 用 
adjQ 来 处 理 所 有 相 邻 的 顶点 时 不 会 考虑 它们 在 邻接 表 中 的 出 现 顺序 ,这 种 差异 不 会 影响 算法 的 正确 
性 ，. 但 在 调试 或 是 跟踪 邻接 表 的 轨迹 时 我 们 还 是 需要 注意 这 一 点 。 为 了 简化 操作 ， 假 设 Graph 有 一 
个 测试 用 例 来 从 命令 行 参数 指定 的 文件 中 读 取 一 幅 图 并 将 它 打 印 出 来 (参见 表 4.1.2 中 的 toString()- 

525| 方法 的 实现 ) , 以 显示 邻接 表 中 的 各 个 顶点 的 出 现 顺序 , 这 也 是 算法 处 理 它们 的 顺序 ( 请 见 练习 4.17 ) 














Graph 数据 类 型 
public class Graph 
二 1 和 :hs 
private. final int Vi; // 顶点 数目 
private int E; // 边 的 数目 


private Bag<Integer>[] adj; .// 年 接 表 
public GraphCint V) a 
{ 
this.V = Vi this.E = 0; = 
adj = (Bag<Integer>[]) new Bag[V]; // 创建 邻接 表 
for Cint v=0iv<Vi v++) // 将 所 有 性 表 初 始 化 为 空 
adj[v] = new'Bag<Integer> 〇 7- 


} 
public Graph(In in) - 
{ 


this(Cin.readInt©O); /7 读 取 V 并 将 围 初始 化 


int E = in.readIntOi /A 读 取 E 
for (int 1 = 0; 1 < E; 1++} 
-ZN 添加 一 天 过 RS 
二 iit v = in.readInt(); 。 // 读 取 一 个 顶点 
intw= in.readInt(); 7 读 取 男 一 个 顶点 
.addEdge(v, W; _// -添加 一 条 连接 它们 的 边 


上 
public. int VO { return Vi 上 
public int EO { retun E; } 
public void addEdge(int v, int mW … 


adj[v] .addGw); 人 // 将 mw 添加 到 v 的 链表 中 
adj[w] .addCv) ; // 将 v 添 加 到 W 的 链表 中 
Ert; 


public Iterable<Integer> adjCint v) 
{ rerurn.adj[v]; } 
ee 
这 份 Graph 的 实现 使 用 了 一 个 由 顶点 索引 的 整 型 链表 数组 。 每 条 边 都 会 出 现 两 次 ， 即 当 存在 一 条 连 
接 v 与 w 的 边 时 ，w 会 出 现在 v 的 链表 中 ,v 也 会 出 现在 w 的 链表 中 。 第 二 个 构造 机 数 从 输入 流 中 读 取 一 
526|， 幅 图 ,开头 是 所 然后 是 下 ,再 然后 是 一 列 整数 对 ， 大 小 在 0 到 /1 之 间 。toString() 方法 请 见 表 4.1.2。 
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在 实际 应 用 中 还 有 一 些 操作 可 能 是 很 有 用 的 ， 例 如 : 

口 添加 一 个 顶点 ; 

口 删除 一 个 顶点 。 

实现 这 些 操作 的 一 种 方法 是 扩展 之 前 的 API, 使 用 符号 表 ( ST ) 来 代替 由 项 点 索引 构成 的 数组 ( 这 
样 修改 之 后 就 不 需要 约定 顶点 名 必须 是 整数 了 ) 。 我 们 可 能 还 需要 : 

口 删除 一 条 边 ; 

口 检查 图 是 否 含有 边 v-w。 

要 实现 这 些 方法 ( 不 允许 存在 平行 边 ) ， 我 们 可 能 需要 使 用 SET 代替 Bag 来 实现 邻接 表 。 我 们 
称 这 种 方法 为 邻接 集 。 本 书 中 不 会 使 用 这 些 数据 结构 ， 因 为 : 

口 用 例 代 码 不 需要 添加 顶点 、 删 除 顶点 和 边 或 是 检查 一 条 边 是 否 存在 ; 

口 当 用 例 代码 需要 进行 上 述 操作 时 ， 由 于 频率 很 低 或 者 相关 的 邻接 链表 很 短 ， 因 此 可 以 直接 使 

用 穷 举 法 遍历 链表 来 实现 ; 

口 使 用 SET 和 ST 会 令 算法 的 实现 变 得 更 加 复杂 ， 分 散 了 读者 对 算法 本 身 的 注意 力 ; 

口 在 某 些 情况 下 ， 它 们 会 使 性 能 损失 logV 

使 我 们 的 算法 适应 其 他 设计 ( 例如 ， 不 允许 出 现 平行 边 或 是 自 环 ) 并 避免 不 必要 的 性 能 损失 并 
不 困难 。 表 4.13 总 结 了 之 前 提 到 过 的 所 有 其 他 实现 方法 的 性 能 特点 。 常见 的 应 用 场景 都 需要 处 理 
庞大 的 稀疏 图 ， 因 此 我 们 会 一 直 熏 用 邻接 表 。 


表 4.1.3 典型 Graph 实现 的 性 能 复杂 度 





数据 结构 所 需 空间 添加 一 条 边 v-w ”检查 w 和 六 是 否 相 邻 遍历 v 的 所 有 相 邻 项 点 

边 的 列表 E 1 E 3 

邻接 矩阵 到 1 V HM 

邻接 表 E#V y degree(v) degree(v) 

邻接 集 ErV logy logy logV+degree(v) 
bd ha 


4.1.2.3 图 的 处 理 算法 的 设计 模式 

因为 我 们 会 讨论 大 量 关于 图 处 理 的 算法 ， 所 以 设计 的 首要 目标 是 将 图 的 表示 和 实现 分 离开 来 。 
为 此 ， 我 们 会 为 每 个 任务 创建 一 个 相应 的 类 ， 用 例 可 以 创建 相应 的 对 象 来 完成 任务 。 类 的 构造 函数 
一 般 会 在 预 处 理 中 构造 各 种 数据 结构 ， 以 有 效 地 响应 用 例 的 请 求 。 典 型 的 用 例 程 序 会 构造 一 幅 图 ， 
将 图 传递 给 实现 了 某 个 算法 的 类 ( 作为 构造 函数 的 参数 ), 然后 调用 用 例 的 方法 来 获取 图 的 各 种 性 质 。 
作为 热身 ， 我 们 先 来 看 看 这 份 API， 人 参见 表 4.1.4。 


表 4.1.4 图 处 理 算法 的 API (热身 ) 


public class Search 四 
Search(Graph G，int s) 找到 和 起 点 s 连通 的 所 有 顶点 





boolean marked(int v) v 和 s 是 连通 的 吗 
int countO 与 s 连 通 的 顶点 总 数 


我 们 用 起 点 (souree ) 区 分 作为 参数 传递 给 构造 函数 的 顶点 与 图 中 的 其 他 顶点 。 在 这 份 API 中 ， 
构造 函数 的 任务 是 找到 图 中 与 起 点 连通 的 其 他 项 点。 用 例 可 以 调用 marked() 方法 和 count() 方 
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法 来 了 解 图 的 性 质 。 方 法 名 marked() 指 的 是 这 种 基本 算法 使 用 的 一 种 实现 方式 ， 本 章 中 会 一 直 
使 用 到 这 种 算法 : 在 图 中 从 起 点 开始 沿 着 路 径 到 达 其 他 顶点 并 标记 每 个 路 过 的 顶点 。 后 面 框 注 中 
的 图 处 理 用 例 TestSearch 接受 由 命令 行 得 到 的 一 个 输入 流 的 名 称 和 起 始 结 点 的 编号 ， 从 输入 流 
中 读 取 一 幅 图 ( 使 用 Graph 的 第 二 个 构造 函数 ), 用 这 幅 图 和 给 定 的 起 始 结 点 创建 一 个 Search 对 象 ， 


然后 用 markedQ 打印 出 图 中 和 起 点 连通 的 所 有 项 上 
的 ( 当 且 仅 当 搜 索 能 够 标记 图 中 的 所 有 






它 也 调用 了 count() 并 打印 了 图 是 否 是 连通 


% java TestSearch tinyG.txt 0 
0123456 
NOT connected 


public class TestSearch 


% java TestSearch tinyG.txt 9 


4 了 站 四 9 10 11 12 
下 static void main(String[] args) 0 
Graph G = new Graph(new In(args[0])); 
int s = Integer.parseInt(args[1]); pa 
Search search = new Search(G, s); "a 
eT 


for (int v = 0; v < GVO; v++) 
if (search.marked(v)) 
StdOut.print(v + " "); 
StdOut .print1nO; 


4 
0 
9 
6 
if (search.count() != G.VO) 号 
StdOut .print ("NOT "); 8 
9 
0 
7 
9 
5 


05 


Std0ut.println("connected"); 


图 处 理 的 用 例 (热身 ) 


Q 
SBPoo 
A Gu@ 
cr Ge 


我 们 已 经 见 过 Search API 的 一 种 实现 : 第 1 章 中 的 union-find 算法 。 它 的 构造 函数 会 创建 一 
个 UF 对 象 ， 对 图 中 的 每 一 条 边 进行 一 次 union() 操作 并 调用 connected(s,v) 来 实现 marked(v) 


方法 。 实 现 count() 方法 需要 一 个 加 权 的 UF 实现 并 扩展 它 的 API， 





wt[findCv)] (请 见 练习 4.1.8 ) 。 这 种 实现 简单 而 高 效 ， 但 下 面 我 
们 要 学 习 的 实现 还 可 以 更 进 让 二 于 的 是 困 度 这 此 技 过 (DFS) 
的 。 这 是 一 种 重要 的 递归 方法 ， 它 会 沿 着 图 的 边 寻 找 和 起 点 连通 的 


所 有 顶点 。 深 度 优先 搜索 是 本 章 中 将 学 习 的 好 几 种 关于 图 的 算法 的 
基础 。 


4.1.3 深度 优先 搜索 

我 们 常常 通过 系统 地 检查 每 一 个 顶点 和 每 一 条 边 来 获取 图 的 各 
种 性 质 。 要 得 到 图 的 一 些 简单 性 质 ( 比如 ， 计 算 所 有 顶点 的 度数 ) 
很 容易 ， 只 要 检查 每 一 条 边 即 可 ( 任意 顺序 ) 。 但 图 的 许多 其 他 性 
质 和 路 径 有 关 ， 因 此 一 种 很 自然 的 想法 是 沿 着 图 的 边 从 一 个 顶点 移 
动 到 另 一 个 顶点 。 尽 管 存在 各 种 各 样 的 处 理 策略 ,但 后 面 将 要 学 习 
的 几乎 所 有 与 图 有 关 的 算法 都 使 用 了 这 个 简单 的 抽象 模型 ， 其 中 最 





迷宫 


图 4.1.11 


以 便 使 用 count() 方法 返回 


等 价 的 迷宫 模型 


简单 的 就 是 下 面 介绍 的 这 种 经 典 的 方法 。 
4.1.3.1 走 迷 宫 

思考 图 的 搜索 过 程 的 一 种 有 益 的 方法 是 ， 考 虑 另 一 个 和 它 等 
价 但 历史 悠久 而 又 特别 的 问题 一 在 一 个 由 各 种 通道 和 路 口 组 成 
的 迷宫 中 找到 出 路 。 有 些 迷 宫 的 规则 很 简单 ， 但 大 多 数 迷 宫 则 需 
要 很 复杂 的 策略 才 行 。 用 迷宫 代替 图 、 通 道 代替 边 、 路 口 代替 项 
点 仅仅 只 是 一 些 文字 游戏 ， 但 就 目前 来 说 ， 这 么 做 可 以 帮助 我 们 
直观 地 认识 问题 ， 参 见 图 4.1.11。 探 索 迷宫 而 不 迷路 的 一 种 古老 
办 法 ( 至 少 可 以 追溯 到 不 修 斯 和 米 诺 陶 的 传说 ) 叫 做 Tremaux 搜索 ， 
参见 图 4.1.12。 要 探索 迷宫 中 的 所 有 通道 ， 我 们 需要 : 

口 选择 一 条 没有 标记 过 的 通道 ， 在 你 走 过 的 路 上 铺 一 条 

绳子 ; 

口 标记 所 有 你 第 一 次 路 过 的 路 口 和 通道 ; 

口 当 来 到 一 个 标记 过 的 路 口 时 ( 用 绳子 ) 回 退 到 上 个 路 口 ; 

口 当 回 退 到 的 路 口 已 没有 可 走 的 通道 时 继续 回 退 。 

绳子 可 以 保证 你 总 能 找到 一 条 出 路 ， 标 记 则 能 保证 你 不 会 
两 次 经 过 同一 条 通道 或 者 同一 个 路 口 。 要 知道 是 否 完全 探索 了 
整个 迷宫 需要 的 证 明 更 复杂 ， 只 有 用 图 搜索 才能 够 更 好 地 处 理 
问题 。Tremaux 搜索 很 直接 ， 但 它 与 完全 搜索 一 张 图 仍然 稍 有 
不 同 ， 因 此 我 们 接 下 来 看 看 图 的 搜索 方法 。 


public class DepthFirstSearch 
€ 
private boolean[] marked; 
private int count; 
public DepthFirstSearch(Graph G, int s) 
{ 


marked = new boolean[G.VO]; 
dfs(G, s); 


private void dfs(Graph G, int v) 
{ 


marked[v] = true; 
Count++; 
for (int w : G.adj(v)) 
if CImarked[w]) dfs(G, w); 
} 


public boolean markedCint w) 
{ return marked[w]; } 


public int count() 
{ return count; } 


深度 优先 搜索 
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图 4.1.12 Tremaux 搜 索 ( 另 见 彩 插 ) 
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4.1.3.2 热身 

搜索 连通 图 的 经 典 递归 算法 ( 遍历 所 有 的 顶点 和 边 ) 和 Tremaux 搜索 类 似 , 但 描述 起 来 更 简单 。 
要 搜索 一 幅 图 ， 只 需 用 一 个 递归 方法 来 遍历 所 有 顶点 。 在 访问 其 中 一 个 顶点 时 : 

口 将 它 标记 为 已 访问 ; 

口 递归 地 访问 它 的 所 有 没有 被 标记 过 的 邻居 顶点 。 

这 种 方法 称 为 深度 优先 搜索 (DFS ) 。Search API 的 一 种 实现 使 用 了 这 种 方法 ， 如 深度 优先 
搜索 框 注 所 示 。 它 使 用 一 个 boolean 数组 来 记录 和 起 点 连通 的 所 有 项 点。 递归 方法 会 标记 给 定 的 顶 
点 并 调用 自己 来 访问 该 顶点 的 相 邻 顶点 列表 中 所 有 没有 被 标记 过 的 顶点 。 如 果 图 是 连通 的 ， 每 个 邻 
接 链表 中 的 元 素 都 会 被 检查 到 。 


命题 A。 深 度 优先 搜索 标记 与 起 点 连通 的 所 有 顶点 所 需 的 时 间 和 顶点 的 度数 之 和 成 正比 。 


证 明 。 首 先 ， 我们 要 证 明 这 个 算法 能 够 标记 与 起 点 s 连通 的 所 有 顶点 ( 且 不 会 标记 其 他 顶点 ) 。 
因为 算法 仅 通 过 边 来 寻找 顶点 ， 所 以 每 个 被 标记 过 的 顶点 都 与 5 连通 。 现 在， 假设 某 个 没有 被 
标记 过 的 顶点 w 与 s 连通 。 因 为 s 本 身 是 被 标记 过 的 ， 由 s 到 w 的 任意 一 条 路 径 中 至 少 有 一 条 
边 连接 的 两 个 顶点 分 别 是 被 标记 过 的 和 没有 被 标记 过 的 ， 例 如 v-xs 根据 算法 ， 在 标记 了 v 之 
后 必然 会 发 现 X， 因 此 这 样 的 边 是 不 存在 的 。 前 后 矛盾 。 每 个 顶点 都 只 会 被 访问 一 次 保证 了 时 
间 上 限 ( 检查 标记 的 耗 时 和 度数 成 正比 )。 


4.1.3.3 单 向 通道 
代码 中 方法 的 调用 和 返回 机 制 对 应 迷宫 中 绳子 。 tinyCG.txt 标准 画 法 
的 作用 当 已 经 处 理 过 依附 于 一 个 顶点 的 所 有 边 时 。 广 w Q @ 
(搜索 了 路 口 连接 的 所 有 通道 ) ， 我 们 就 只 能 “ 反 s a 区 也 
回 ” (retum， 两 者 的 意义 相同 ) 。 为 了 更 好 地 与 迷 24 G 一 6o 生 0 
客 的 Tremaux 搜索 对 应 起 来 ， 我 们 可 以 想象 一 座 完 Ne 
全 由 单 向 通道 构造 的 迷宫 ( 每 个 方向 都 有 一 个 通道 )。 3 EMT 
和 在 迷 官 中 会 经 过 一 条 通道 两 次 (方向 不 同 ) 一 样 ， 35 
在 图 中 我 们 也 会 路 过 每 条 边 两 次 ( 在 它 的 两 个 端点 9 
各 一 次 ) 。 在 Tremaux 搜索 中 ， 要么 是 第 一 次 访问 
一 条 边 ,要 么 是 沿 着 它 从 一 个 被 标记 过 的 顶点 退回 。 
在 无 向 图 的 深度 优先 搜索 中 ， 在 磁 到 边 v-w 时 ， 要 
么 进行 递归 调用 (w 没有 被 标记 过 ) ， 要 么 跳 过 这 
条 边 (w 已 经 被 标记 过 ) 。 第 二 次 从 另 一 个 方向 w-v 






















































































遇 到 这 条 边 时 ， 总 是 会 忽略 它 ， 因 为 它 的 另 一 端 v 二 一 

肯定 已 经 被 访问 过 了 ( 在 第 一 次 遇 到 这 条 边 的 时 候 )。 2 

4.1.3.4 “跟踪 深度 优先 搜索 3 中 dh 
通常 ， 理 解 算法 的 最 好 方法 吓 在 一 个 简单 的 例 。 “| ~ 








子 中 跟踪 它 的 行为 。 深 度 优先 算法 尤其 是 这 样 。 在 
跟踪 它 的 轨迹 时 ， 首 先 要 注意 的 是 ， 算 法 遍历 边 和 
访问 顶点 的 顺序 与 图 的 表示 是 有 关 的 ， 而 不 只 是 与 
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图 4.1.13 一 幅 连 通 的 无 向 图 
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图 的 结构 或 是 算法 有 关 。 因 为 深度 优先 sartedt] ad 

















搜索 只 会 访问 和 起 点 连通 的 顶点 ， 所 以 ” sf 7 
使 用 图 4.1.13 所 示 的 一 幅 小 型 连通 图 为 。 | | S942. 
例 。 在 示例 中 ,顶点 2 是 顶点 0 之 后 第 | EE 
一 个 被 访问 的 顶点 ， 因 为 它 正好 是 0 的 | 
邻接 表 的 第 一 个 元 素 。 要 注意 的 第 二 点 ，| sf@) Vi 61213 
是 ， 如 前 文 所 述 ， 深 度 优先 搜索 中 每 条 ”| | s 站 3 4 
边 都 会 被 访问 两 次 ， 且 在 第 二 次 时 总 会 | a 
发 现 这 个 项 点 已 经 被 标记 过 。 这 意味 着 | Pe 
深度 优先 搜索 的 轨迹 可 能 会 比 你 想象 的 。 | | asoy a 
长 一 信 ! 示例 图 仅 含有 8 条 边 , 但 需 | | | lr 403,, 
要 追踪 算法 在 邻接 表 的 16 个 元 素 上 的 。 | “1 5 3 3|542 
操作 。 | | 5 5130 
4.1.3.5 深度 优先 搜索 的 详细 轨迹 i 
Sx PN oT 0 15 
图 4.1.14 显示 的 是 示例 中 每 个 顶点 | 到 Fas。 
被 标记 后 算法 使 用 的 数据 结构 ， 起 点 为 3 3 
顶点 0。 查 找 开始 于 构造 函数 调用 递归 sl slao 
的 dfsQ 来 标记 和 访问 项 点 0， 后 续 处 | | | 
理 如 下 所 述 。 | | | es 2 22 
口 因为 项 点 2 是 0 的 邻接 表 的 第 一 。 | | | js 3|7 $3424 
个 元 素 且 没有 被 标记 过 ,dfsO 〇 Slr S138 
递归 调用 自己 来 标记 并 访问 项 点 
2 (效果 是 系统 会 将 顶点 0 和 0 | | | fs ， 中 8315 
的 邻接 表 的 当前 位 置 压 入 栈 中 ) 。 Ja 2 让 让 i 
口 现在 ,顶点 0 是 2 的 邻接 表 的 第 | | | ws 生 tt 4l32 
一 个 元 来 且 已 经 被 标记 过 了 , 因 ”| | 3 5 
此 dfsQ 跳 过 了 它 。 接 下 来 ， 顶 。 | 2 x 
点 1 是 2 的 邻接 表 的 第 一 个 元 素 ”| .二 
且 没有 被 标记 ，dfs() 递归 调用 。“ 守 民 
自己 来 标记 并 访问 项 点 1。 图 4.1.14 使 用 深度 优先 搜索 的 罗 迹 ， 寻 找 所 有 和 顶点 0 


口 对 顶点 工 的 访问 和 前 面 有 所 不 同 : 连通 的 顶点 〈 另 见 彩 插 ) 
因为 它 的 邻接 表 中 的 所 有 顶点 (0 
和 2 ) 都 已 经 被 标记 过 了 ， 因 此 不 需要 再 进行 递归 ， 方法 从 dfs(1) 中 返回 。 下 一 条 被 检查 的 
边 是 2-3 (在 2 的 邻接 表 中 顶点 1 之 后 的 顶点 是 3) ， 因 此 dfs0) 递归 调用 自己 来 标记 并 访 
问 顶 点 3。 

口 顶点 5 是 3 的 邻接 表 的 第 一 个 元 素 且 没 有 被 标记 ， 因 此 dfs() 递归 调用 自己 来 标记 并 访问 
顶点 5。 = 

口 顶点 5 的 邻接 表 中 的 所 有 顶点 (3 和 0) 都 已 经 被 标记 过 了 ， 因 此 不 需要 再 进行 递归 。 

口 硕 点 4 是 3 的 邻接 表 的 下 一 个 元 素 且 没有 被 标记 过 ， 因 此 dfs() 递归 调用 自己 来 标记 并 访 
问 项 点 4 这 是 最 后 一 个 需要 被 标记 的 顶点 。 
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- 口 在 顶点 4 被 标记 了 之 后 ,dfs{ ) 会 检查 它 的 邻接 表 ,然后 再 检查 3 的 邻接 表 ,然后 是 2 的 邻接 表 ， 
然后 是 0 的 ， 最 后 发 现 不 需要 再 进行 任何 递归 调用 ， 因 为 所 有 的 顶点 都 已 经 被 标记 过 了 。 
这 种 简单 的 递归 模式 只 是 一 个 开始 一 一 深度 优先 搜索 能 够 有 效 处 理 许多 和 图 有 关 的 任务 。 例 如 ， 
本 节 中 ， 我 们 已 经 可 以 用 深度 优先 搜索 来 解决 在 第 1 章 首次 提 到 的 一 个 问题 。 
连通 性 。 给 定 一 帐 图， 回答“ 两 个 给 定 的 顶点 是 否 连通 ? ”或 者 “图 中 有 多 少 个 连通 子 图?. ” 


等 类 似 问题 。 


我 们 可 以 轻易 地 用 处 天 图 问题 的 标准 设计 想 式 给 这些 问 是 的 答案 ， 还 要 将 这 些 解答 与 在 1.5 


_ 节 中 学 习 的 union-find 算法 进行 比较 。 


问题 “两 个 给 定 的 顶点 是 否 连通 ? ”等 价 于 “两 个 给 定 的 顶点 之 间 是 否 存 在 一 条 路 径 ? ”， 也 
许 也 可 以 叫做 路 径 检 测 问题 。 但 是 ， 在 1.5 节 学 习 的 union-find 算法 的 数据 结构 并 不 能 解决 找 出 这 
样 一 条 路 径 的 问题 。 深度 优先 搜索 是 我 们 已 经 学 习 过 的 几 种 方法 中 第 一 个 能 够 解决 这 个 问题 的 算法 。 


它 能 够 解决 的 另 一 个 问题 如 下 所 述 。 
单 点 路 径 。 给 定 一 幅 图 和 一 个 起 点 
找 出 这 条 路 径 。” 等 类 似 问题 。 





回答 “从 s 到 给 定 目 的 顶点 v 是 否 存在 一 条 路 径 ? 如 果 有 ，“ 


深度 优先 搜索 算法 之 所 以 极为 简单 ， 是 因为 它 所 基于 的 概念 为 人 所 热 知 并 且 非常 容易 实现 。 事 
实 上 ， 它 是 一 个 既 小 巧 而 又 强大 的 算法 ， 研 究 人 员 用 它 解决 了 无 数 困难 的 问题 。 上 述 两 个 问题 只 是 
敬 科 “我 们 将 机 研究 的 许多 问题 的 开始 。 


4.1.4 寻找 路 径 “ 


单 点 路 径 问 题 在 图 的 处 理 领域 中 十 分 重要 。 根 据 标准 设计 模式 ， 我 们 将 使 用 如 下 API (请 见 


表 4.1.5) 。 


表 4.1.5 路 径 的 API 


-public class Paths 





Paths(Graph G, int s) 


boolean haspathTo(int v) 
“Iterable<Integer> pathToCint v) 


构造 函数 接受 一 个 起 点 s 作为 参数 ， 
计算 s 到 与 5 连通 的 每 个 顶点 之 间 的 路 
径 。 在 为 起 点 s 创建 了 Paths 对 象 后 ， 
用 例 可 以 调用 pathTo() 实例 方法 来 遍历 
从 s 到 任意 和 s 连 通 的 顶点 的 路 径 上 的 
所 有 项 点。 现在 暂时 查找 所 有 路 径 ， 以 
后 会 实现 只 查找 具有 某 些 属性 的 路 径 。 





在 G 中 找 出 所 有 起 点 为 s 的 路 径 
是 否 存在 从 s 到 v 的 路 径 
s 到 v 的 路 径 ， 如 果 不 存 在 则 返回 nu11 


public static void main(String[] args) 
{ 


Graph G = new GraphCnew In(args[0])); 
int s = Integer.parseInt(args[1]); 
Paths search = new Paths(G, s); 
for Cint v = 0; v < G.VO; v+t) 
和 
StdOut.print(s + " to "+V+ "); 
if (search.haspathTo(v)) 
for (int x : search.pathToCv)) 
if (x 一 S) StdOut.print(x); 
else StdOut.print("-" + x); 
StdOut.print1nO; 


Paths 实 现 的 测试 用 例 
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上 一 页 右 下 角 框 注 中 的 用 例 从 输入 流 中 读 取 了 一 个 图 并 从 命令 行 得 到 一 个 起 点 ， 然 后 打印 出 从 起 点 
到 与 它 连通 的 每 个 顶点 之 间 的 一 条 路 径 。 
4.1.4.1 实现 

算法 4.1 基于 深度 优先 搜索 实现 了 Paths。 它 扩展 了 4.1.3.2 节 中 的 热身 代码 DepthFirs- 
tSearch， 添 加 了 一 个 实例 变量 edgeTo[] 整 型 数组 来 起 到 Tremaux 搜索 中 绳子 的 作用 。 这 个 数组 
可 以 找到 从 每 个 与 连通 的 顶点 回 到 s 的 路 径 。 它 会 记 住 每 个 顶点 到 起 点 的 路 径 ， 而 不 是 记录 当前 
顶点 到 起 点 的 路 径 。 为 了 做 到 这 一 点 ， 在 由 边 v-w 第 一 次 访问 任意 w 时 ,将 edgeTo[w] 设 为 v 来 
记 住 这 条 路 径 。 换 句 话说 ，v-w 是 从 s 到 w 的 路 径 上 的 最 后 一 条 已 知 的 边 。 这 样 ， 搜 索 的 结果 是 一 
棵 以 起 点 为 根 结 点 的 树 ，edgeTo[] 是 一 棵 由 父 链接 表示 的 树 。 算 法 4.1 的 代码 的 右 侧 是 一 个 小 示 
例 。 要 找 出 s 到 任意 顶点 v 的 路 径 ， 算 法 4.1 实现 的 pathTo() 方法 用 变量 x 遍历 整 棵 树 ， 将 x 设 
为 edgeTo[x] ， 就 像 1.5 节 中 的 union-find 算法 一 样 ， 然 后 在 到 达 s 之 前 ,将 遇 到 的 所 有 顶点 都 压 
人 栈 中 。 将 这 个 栈 返 回 为 一 个 Iterable 对 象 帮助 用 例 遍历 s 到 v 的 路 径 。 


算法 4.1_ 使 用 深度 优先 搜索 查找 图 中 的 路 径 


public class DepthFirstPaths 

和 
private boolean[] marked; // 这 个 项 点 上 调用 过 dfs() 了 吗 ? 
private int[] edgeTo; // 从 起 点 到 一 个 顶点 的 已 知 路 径 上 的 最 后 一 个 顶点 
private final int s; LV 起 点 


public DepthFirstPaths(Craph G, int s) 





marked = new boolean[G.VO]; 
edgeTo = new int[G.VO]; 


this.s = Si 
dfs(G, 5s); 
ra void dfs(Graph G, int v) Cr- (3) «ioeto © 
marked[v] = true; | oy 1|2 位 
for Cint w : G.adj(v)) 人 
© G3) @ 3 4 © 饼 
A 4 
if (Imarked[w]) pe #3 @ 回 
{ 3 X_ 路径 
edgeTo[w] = vi 3 5 
dfs(G, w); 时 业 
0 oz235 
1 
pathTo(5) 的 计算 轨迹 


public boolean hasPathToCint v) 
{ return marked[v]; } 


public Iterable<Integer> pathToCint v) 
{ 


if (lhaspathTo(v)) return null; 
Stack<Integer> path = new Stack<Integer>(); 
for Cint x = vi x != s; x = edgeTo[x]) 
path. push(x) ; 
path. push(s); 
return path; 
} 


这 段 Craph 的 用 例 使 用 了 深度 优先 搜索 ， 以 找 出 图 中 从 给 定 的 起 点 s 到 它 连通 的 所 有 顶点 的 路 径 。 
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来 自 DepthFirstSearch (4.1.32 节 ) 的 代码 均 为 灰色 。 为 了 保存 到 达 每 个 顶点 的 已 知 路 径 ， 这 段 代码 
使 用 了 一 个 以 顶点 编号 为 索引 的 数组 edgeTo[] ，edgeTo[w]=v 表示 v-w 是 第 一 次 访问 w 时 经 过 的 边 。 
edgeTo[] 数组 是 一 棵 用 父 链 接 表示 的 以 s 为 根 且 含有 所 有 与 s 连通 的 顶点 的 树 。 





4.1.4.2 ”详细 轨迹 

图 4.1.15 显示 的 是 示例 中 每 个 顶点 被 标记 
后 edgeTo[] 的 内 容 ， 起 点 为 顶点 0。marked[] 
和 adj[] 的 内 容 与 4.1.3.5 节 中 的 DepthFirst- 
Search 的 轨迹 相同 ， 递 归 调 用 和 边 检查 的 详细 
描述 也 完全 一 样 ， 这 里 不 再 蒙 述 。 深 度 优先 搜索 
向 edgeTo[] 数组 中 顺序 添加 了 0-2、2-1、2-3、 
3-5 和 3-4。 这 些 边 构 成 了 一 棵 以 起 点 为 根 结 点 
的 树 并 提供 了 pathTo() 方法 所 需 的 信息 ， 使 得 
调用 者 可 以 按照 前 文 所 述 的 方法 找到 从 0 到 顶点 
1、2、3、4、5 的 路 径 。 

DepthFirstPaths 与 DepthFirstSearch 
的 构造 函数 仅 有 几 条 赋值 语句 不 同 ， 因 此 4.1.3.2 
节 中 的 命题 A 仍然 适用 。 另 外 ,我 们 还 有 以 下 命题 。 


命题 A( 续 ) 。 使 用 深度 优先 搜索 得 到 从 给 
定 起 点 到 任意 标记 顶点 的 路 径 所 需 的 时 间 与 
路 径 的 长 度 成 正比 = 


证 明 。 根 据 对 已 经 访问 过 的 顶点 数量 的 归纳 
可 得 ,DepthFirstPaths 中 的 edgeTo[] 数 
组 表示 了 一 棵 以 起 点 为 根 结 点 的 树 。path- 
To() 方法 构造 路 径 所 需 的 时 间 和 路 径 的 长 度 
成 正比 。 


4.1.5 ”广度 优先 搜索 


深度 优先 搜索 得 到 的 路 径 不 仅 取决 于 图 的 结 
构 ， 还 取决 于 图 的 表示 和 递归 调用 的 性 质 。 我 们 
很 自然 地 还 经 常 对 下 面 这 些 问题 感 兴趣 。 

单 点 最 短路 径 。 给 定 一 幅 图 和 一 个 起 点 5， 
回答 “从 s 到 给 定 目 的 顶点 v 是 否 存在 一 条 路 径 ? 
如 果 有 , 找 出 其 中 最 短 的 那 条 ( 所 含 边 数 最 少 )。” 
等 类 似 问题 。 

解决 这 个 问题 的 经 典 方法 叫做 广度 优先 搜索 

(BFS)。 它 也 是 许多 图 算法 的 基石 ， 因 此 我 们 会 
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图 4.1.15 使 用 深度 优先 搜索 的 轨迹 ,寻找 所 有 
起 点 为 0 的 路 径 ( 另 见 彩 插 ) 


在 本 节 中 详细 学 习 。 深 度 优先 搜索 在 这 个 问题 上 没有 什么 作为 ， 因 为 它 遍 历 
整个 图 的 顺序 和 找 出 最 短路 径 的 目标 没有 任何 关系 。 相 比 之 下 ， 广 度 优先 搜 
索 正 是 为 了 这 个 目标 才 出 现 的 。 要 找到 从 s 到 v 的 最 短路 径 ， 从 s 开始 , 在 
所 有 由 一 条 边 就 可 以 到 达 的 顶点 中 寻找 v， 如 果 找 不 到 我 们 就 继续 在 与 s 距 
离 两 条 边 的 所 有 顶点 中 查找 v， 如 此 一 直 进 行 。 深 度 优先 搜索 就 好 像 是 一 个 
人 在 走 迷 宫 ， 广 度 优先 搜索 则 好 像 是 一 组 人 在 一 起 朝 各 个 方向 走 这 座 迷 官 ， 
每 个 人 都 有 自己 的 绳子 。 当 出 现 新 的 又 路 时 ， 可 以 假设 一 个 探索 者 可 以 分 裂 
为 更 多 的 人 来 搜索 它们 ， 当 两 个 探索 者 相遇 时 ， 会 合 二 为 一 〈 并 继续 使 用 先 
到 达 者 的 绳子 ) ， 参 见 图 4.1.16。 

在 程序 中 ,在 搜索 一 幅 图 时 遇 到 有 多 条 边 需 要 遍历 的 情况 时 ， 我 们 会 
选择 其 中 一 条 并 将 其 他 通道 留 到 以 后 再 继续 搜索 。 在 深度 优先 搜索 中 ， 我 们 
用 了 一 个 可 以 下 压 的 栈 ( 这 是 由 系统 管理 的 ， 以 支持 递归 搜索 方法 ) 。 使 用 
LIFO ( 后 进 先 出 ) 的 规则 来 描述 压 栈 和 走 迷宫 时 先 探索 相 邻 的 通道 类 似 。 从 

”有 待 搜索 的 通道 中 选择 最 晚 员 到 过 的 那 条 。 在 广度 优先 搜索 中 ， 我 们 希望 按 
_ 照 与 起 点 的 距离 的 顺序 来 遍历 所 有 顶点 ， 看 起 来 这 种 顺序 很 容易 实现 : 使 用 
(FIFO， 先 进 先 出 ) 队列 来 代替 栈 (LIFO， 后 进 先 出 ): 即 可 。 我 们 将 从 有 待 搜索 的 通道 中 选择 最 

早 过 到 的 那 条 。 

实现 

算法 4.2 实现 了 广度 优先 搜索 算法 。 它 使 用 了 一 个 队列 来 保存 所 有 已 经 被 标记 过 但 其 邻接 表 还 
未 被 检查 过 的 顶点 。 先 将 起 点 加 入 队列 ， 然 后 重复 以 下 步骤 直到 队列 为 空 : 

口 取 队 列 中 的 下 一 个 顶点 v 并 标记 它 ; 

口 将 与 v 相 邻 的 所 有 未 被 标记 过 的 顶点 加 入 队列 。 

算法 42 中 的 bfs() 方法 不 是 递归 的 。 不 像 递 归 中 隐 式 使 用 的 栈 ， 它 显 式 地 使 用 了 一 个 队列 。 
和 深度 优先 搜索 一 样 , 它 的 结果 也 是 一 个 数组 edgeTo[J, 也 是 一 棵 用 父 链接 表示 的 根 结 点 为 s 的 树 。 
它 表 示 了 .s 到 每 个 与 s 连通 的 顶点 的 最 短路 径 。 用 例 也 可 以 使 用 算法 4.1 中 为 深度 优先 搜索 实现 的 
相同 的 pathTo() 方法 得 到 这 些 路 径 。 

.图 4.1.17 和 图 4.1.18 显示 了 用 广度 优先 搜索 
。 处 理 样 图 时 ， 算 法 使 用 的 数据 结构 在 每 次 循环 的 
和 迭代 开始 时 的 内 容 。 首 先 ， 顶 点 0 被 加 入 队列 ， 
然后 循环 开始 搜索 。 : G 一 人 一 
口 从 队列 中 册 去 顶点 0 并 将 它 的 相 邻 项 点 2、 站 Ee 
1 和 5 加 入 队列 中 ,标记 它们 并 分 别 将 它 pe 
们 在 edgeTo[] 中 的 值 设 为 0。 人 
” 口 从 队列 中 删 去 顶点 2 并 检查 它 的 相 邻 项 点 0 和 1， 发 现 两 者 都 已 经 被 标记 。 将 相 邻 的 顶点 3 
和 4 加 入 队列 ， 标 记 它 们 并 分 别 将 它们 在 edgeTo[] 中 的 值 设 为 2。 
口 从 队列 中 删 去 顶点 1 并 检查 它 的 相 邻 顶 点 0 和 2， 发 现 它们 都 已 经 被 标记 了 。 
口 从 队列 中 删 去 顶点 5 并 检查 它 的 相 邻 项 点 3 和 0， 发 现 它们 都 已 经 被 标记 了 。 
= 口 从 队列 中 删 去 顶点 3 并 检查 它 的 相 邻 顶点 5、4 和 2， 发现 它们 都 已 经 被 标记 了 。 一 
口 从 队列 中 删 去 顶点 和 并 检查 它 的 相 邻 顶点 3 和 2， 发 现 它们 都 已 经 被 标记 了 。 








41 无 向 图 二 345 








346 b> 第 4 章 图 








queue marked[] edgeTo[] adj[] 
2 2 210134 
3 3 3 542 
5 1T 1 0 1102 
4 3 iT 3 2 31542 
3| (CO olT 0 0 
4 9 1T 1 10 1 
on i 
GK 4 4|T 4| 2 4132 
GO (4) 5T slo 5 
4| (0 olT 0 0 
Q, 1I7T 1 10 1 
四 人 
3 iT 312 3 
Gy) 4T 有 | 了 4 32 
© G) ST Sl $ 
539] 图 4.1.18 ”使 用 广度 优先 搜索 的 轨迹 ， 寻 找 所 有 起 点 为 0 的 路 径 ( 另 见 彩 插 ) 








算法 4.2 使 用 广度 优先 搜索 查找 图 中 的 路 径 





public class BreadthFirstPaths 


{ 
private boolean[] marked; // 到 达 该 顶点 的 最 短路 径 已 知 吗 ? 
private int[] edgeTo; // 到 达 该 顶点 的 已 知 路 径 上 的 最 后 一 个 顶点 
private final int s; // 起 点 





public BreadthFirstpaths(Graph G, int s) 
{ 
marked 
edgeTo 
this.s 
bfs(G, s) 


new boolean[G.VO]; 
new int[G.VO]; 
Si 
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private void bfs(Graph G, int s) 
{ 


Queue<Integer> queue = new Queue<Integer>(); 
marked[s] = true; // 标记 起 点 
queue.enqueue(s); // 将 它 加 入 队列 
while (!queue.isEmptyO) 
{ 
int v = queue.dequeue(); // 从 队列 中 删 去 下 一 顶点 
for (int w : G.adj(v)) 
if (!marked[w]) // 对 于 每 个 未 被 标记 的 相 邻 顶点 
{ 


edgeTo[w] = v; // 保存 最 短路 径 的 最 后 一 条 边 
marked[w] = true; // 标记 它 ， 因 为 最 短路 径 已 知 
queue.enqueue(w); // 并 将 它 添加 到 队列 中 


} 
} 


public boolean haspathToCint v) 
{ return marked[v]; } 


public Iterable<Integer> pathToCint v) 
// 和 深度 优先 搜索 中 的 实现 相同 ( 请 见 算法 4.1 ) 


} 
这 段 Graph 的 用 例 使 用 了 广度 优先 搜索 ， 以 找 出 图 中 从 构造 函数 得 到 的 起 点 s 到 与 其 他 所 有 顶点 的 


最 短路 径 。bfs() 方法 会 标记 所 有 与 s 连通 的 顶点 ， 因 此 用 例 可 以 调用 hasPathTo( 来 判定 一 个 顶点 与 
s 是 否 连通 并 使 用 pathTo() 得 到 一 条 从 s 到 v 的 路 径 ， 确 保 没有 其 他 从 s 到 v 的 路 径 所 含 的 边 比 这 条 路 


径 更 少 。 


对 于 这 个 例子 来 说 ，edgeTo[] 数组 在 第 二 步 之 后 就 已 经 完成 了 。 和 深度 优先 搜索 一 样 ， 一 旦 
所 有 的 顶点 都 已 经 被 标记 ,余下 的 计算 工作 就 只 是 在 检查 连接 到 各 个 已 被 标记 的 顶点 的 边 而 已 。 








查 所 有 与 起 点 连通 的 顶点 和 边 的 方法 只 取决 于 查找 的 能 力 。 
我 们 在 本 章 开 头 说 过 ， 深 度 优先 搜索 和 广度 优先 搜索 是 我 们 首先 学 习 的 几 种 通用 的 图 搜索 的 算 
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法 之 一 。 在 搜索 中 我 们 都 会 先 将 
起 点 存 人 数据 结构 中 ， 然 后 重复 
以 下 步骤 直到 数据 结构 被 清空 : 

口 取 其 中 的 下 一 个 顶点 并 标 

记 它 ; 
口 将 v 的 所 有 相 邻 而 又 未 被 
标记 的 顶点 加 入 数据 结构 。 

这 两 个 算法 的 不 同 之 处 仅 在 
于 从 数据 结构 中 获取 下 一 个 顶点 
的 规则 ( 对 于 广度 优先 搜索 来 说 
是 最 早 加 入 的 顶点 ， 对 于 深度 
优先 搜索 来 说 是 最 晚 加 入 的 顶 
点 ) 。 这 种 差异 得 到 了 处 理 图 的 
两 种 完全 不 同 的 视角 ， 尽 管 无 论 
使 用 哪 种 规则 ， 所 有 与 起 点 连通 
的 顶点 和 边 都 会 被 检查 到 。 

图 4.1.19 和 图 4.1.20 显示 
了 深度 优先 搜索 和 广度 优先 搜索 
处 理 样 图 mediumG.txt 的 过 程 ， 
它们 清晰 地 展示 了 两 种 方法 中 搜 
索 路 径 的 不 同 。 深 度 优先 搜索 不 
断 深入 图 中 并 在 栈 中 保存 了 所 有 
分 叉 的 顶点 ; 广度 优先 搜索 则 像 
扇面 一 般 扫 描 图 ， 用 一 个 队列 保 
存 访问 过 的 最 前 端的 顶点 。 深 度 
优先 搜索 探索 一 幅 图 的 方式 是 寻 
找 离 起 点 更 远 的 顶点 ， 只 在 碰 到 
死胡同 时 才 访 问 近 处 的 顶点 ; 广 
度 优先 搜索 则 会 首先 覆盖 起 点 附 
近 的 顶点 ， 只 在 临近 的 所 有 顶点 
都 被 访问 了 之 后 才 向 前 进 。 深 度 
优先 搜索 的 路 径 通 常 较 长 而 且 曲 
折 ， 广 度 优先 搜索 的 路 径 则 短 而 
直接 。 根 据 应 用 的 不 同 ， 所 需要 
的 性 质 也 会 有 所 不 同 ( 也 许 路 径 
的 性 质 也 会 变 得 无 关 紧要 ) 。 在 
4.4 节 中 ， 我 们 会 学 习 Paths 的 
API 的 其 他 实现 来 寻找 有 特定 属 
性 的 路 径 。 





图 4.1.19 使 用 深度 优先 搜索 查 。 图 4.1.20 使 用 广度 优先 搜索 查找 


找 路 径 (250 个 顶点 ) 


最 短路 径 (250 个 顶点 ) 


4.1.6 连通 分 量 
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深度 优先 搜索 的 下 一 个 直接 应 用 就 是 找 出 一 幅 图 的 所 有 连通 分 量 。 回 忆 1.5 节 中 “与 …… 连 通 ” 
是 一 种 等 价 关系 ， 它 能 够 将 所 有 顶点 切 分 为 等 价 类 (连通 分 量 ) 。 对 于 这 个 常见 的 任务 ， 我 们 定义 


如 下 API (请 见 表 4.1.6) 。 


表 4.1.6 连通 分 量 的 API 


一 一 -~ 


public class CC 





CCCGraph G) 


boolean connected(int v, int w) 


int countO 
int idCint v) 


预 处 理 构造 函数 

V 和 w 连 通 吗 

连通 分 量 数 

Y 所 在 的 连通 分 量 的 标识 符 (0 ~ count()-1) 


用 例 可 以 用 idQ 方法 将 连通 分 量 用 数组 保存 ， 如 框 注 中 的 用 例 所 示 。 它 能 够 从 标准 输入 中 读 
取 ~- 幅 图 并 打印 其 中 的 连通 分 量 数 ， 其 后 是 每 个 子 图 中 的 所 有 项 点， 每 行 一 个 子 图 。 为 了 实现 这 些 ， 
它 使 用 了 一 个 Bag 对 象 数组 ， 然 后 用 每 个 顶点 所 在 的 子 图 的 标识 符 作为 数组 的 索引 ， 以 将 所 有 顶点 
加 入 相应 的 Bag 对 象 中 。 当 我 们 希望 独立 处 理 每 个 连通 分 量 时 这 个 用 例 就 是 一 个 模型 。 


4.1.6.1 实现 

CC 的 实现 ( 请 见 算法 43 ) 使 用 了 
marked[] 数组 来 寻找 一 个 顶点 作为 每 个 
连通 分 量 中 深度 优先 搜索 的 起 点 。 递 归 
的 深度 优先 搜索 第 一 次 调用 的 参数 是 顶 
点 0- 一 它 会 标记 所 有 与 0 连通 的 顶点 。 
然后 构造 函数 中 的 for 循环 会 查找 每 个 
没有 被 标记 的 顶点 并 递归 调用 dfsQ 来 
标记 和 它 相 邻 的 所 有 顶点。 另外 ， 它 
还 使 用 了 一 个 以 顶点 作为 索引 的 数组 
id[]， 将 同一 个 连通 分 量 中 的 顶点 和 连 
通 分 量 的 标识 符 关联 起 来 (int 值 ) 。 这 
个 数组 使 得 connected0) 方法 的 实现 变 
得 十 分 简单 ， 和 1.5 节 中 的 connectedO 
方法 完全 相同 ( 只 需 检 查 标识 符 是 否 相 
同 ) 。 这 里 ， 标 识 符 0 会 被 赋予 第 一 个 
连通 分 量 中 的 所 有 顶点 ，1 会 被 赋予 第 二 


public static void main(String[] args) 
,5 


Craph G = new Graph(new In(args[0])); 
CC cc = new CC(O); 


int M = cc.countO; 
StdOut .println(M + " components"); 


Bag<Integer>[] components; 

components = (Bag<Integer>[]) new Bag[M]; 

for Cint i = 0; 1 < M; i++) 
Components[i] = new Bag<Integer>(); 

for (int v = 0; v < GVO; v++) 
components[cc.idCv)] .add(v); 

for (int i = 0; i < M; i++) 

4 
for (int v: components[i]) 

StdOut.print(v + " "); 

StdOut.print1n(O); 

} 

} 


查找 连通 分 量 API 的 测试 用 例 


个 连通 分 量 中 的 所 有 项 点 ， 依 此 类 推 。 这 样 所 有 的 标识 符 都 会 如 API 中 指定 的 那样 在 0 到 count C0) -1 
之 间 。 这 个 约定 使 得 以 子 图 作为 索引 的 数组 成 为 可 能 ， 如 右 侧 框 注 用 例 所 示 。 


算法 4.3 “使 用 深度 优先 搜索 找 出 图 中 的 所 有 连通 分 量 





public class CC 

{ 
private booleant] marked; 
private int[] id; 
private int count; 








543| 
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public CC(Graph G) 
{ % more tinyG. txt 
marked = new boolean[G.VO]; 13 vertices, 13 edges 
id = new int[G.VO]; 0:6215 
for (int s = 0; s < G.VO; s++) 
if (!marked[s]) 








4 
dfs(G, s); 63 
Count++; 全 
】 4 
} 
private void dfs(Graph G, int v) 
{ 9: 11 10 12 
marked[v] 10: 9 
id[v] = count; 11: 9 12 
for (int w 12: 119 
if Cimar 
dfs(C % java CC tinyG.txt 
1 3 components 
6543210 


public boolean connected(int v，int w) 87 
{ return id[v] == id[w]; } 


1211109 
public int idCint v) 
{ return id[v]; } 


public int countO 
{ return count; } 
} 


这 段 Graph 的 用 例 使 得 它 的 用 例 可 以 独立 处 理 一 幅 图 中 的 每 个 连通 分 量 。 来自 DepthfirstSearch 
(请 见 4.1.3.2 节 ) 的 代码 均 为 灰色 。 这 里 的 实现 是 基于 一 个 由 顶点 索引 的 数组 id[]。 如 果 v 属于 第 i 个 
连通 分 量 ， 则 id[v] 的 值 为 1。 构 造 函 数 会 找 出 一 个 未 被 标记 的 顶点 并 调用 递归 函数 dfs() 来 标记 并 区 
分 出 所 有 和 人 它 连通 的 顶点 ， 如 此 重复 直到 所 有 的 顶点 都 被 标记 并 区 分 。connectedC) 、count(C) 和 idC) 
方法 的 实现 非常 简单 ( 另 见 图 4.1.21 ) 。 





命题 C。 深 度 优先 搜索 的 预 处 理 使 用 的 时 间 和 空间 与 V+E 成 正比 且 可 以 在 常数 时 间 内 处 理 关于 
图 的 连通 性 查询 。 


证 明 。 由 代码 可 以 知道 每 个 邻接 表 的 元 素 都 只 会 被 检查 一 次 ， 共 有 2E 个 元 素 (每 条 边 两 个 ) 。 
实例 方法 会 检查 或 者 返回 一 个 或 两 个 变量 。 


4.1.6.2 union-find 算法 

CC 中 基于 深度 优先 搜索 来 解决 图 连通 性 问题 的 方法 与 第 1 章 中 的 union-find 算法 相 比 训 优 熟 
劣 ? 理论 上 ， 深 度 优先 搜索 比 union-find 法 快 ， 因 为 它 能 保证 所 需 的 时 间 是 常数 而 union-find 算法 
不 行 ; 但 在 实际 应 用 中 ， 这 点 差异 微不足道 。union-find 算法 其 实 更 快 ， 因 为 它 不 需要 完整 地 构造 
并 表示 一 幅 图 。 更 重要 的 是 ，union-find 算法 是 一 种 动态 算法 ( 我 们 在 任何 时 候 都 能 用 接近 常数 的 
时 间 检查 两 个 顶点 是 否 连通 ， 其 至 是 在 添加 一 条 边 的 时 候 ) ， 但 深度 优先 搜索 则 必须 要 对 图 进行 预 
处 理 。 因 此 ， 我 们 在 完成 只 需要 判断 连通 性 或 是 需要 完成 有 大 量 连 通 性 查询 和 插入 操作 混合 等 类 似 
的 任务 时 ， 更 倾向 使 用 union-find 算法 ， 而 深度 优先 搜索 则 更 适合 实现 图 的 抽象 数据 类 型 ， 因 为 它 
能 更 有 效 地 利用 已 有 的 数据 结构 。 
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id0D 





(3 (XO 
《一 nN 
© OD 
count marked[] 
012345678 910117 
dfs(0) 0 T 
dfs(6) o TT T 
检查 0 
dfs(4) 0 TT 和 A 
dfs(5) oT TTT 
dfs(3) 0 T TITTT 
检查 5 
检查 4 
3 完成 
检查 4 
检查 0 
5 完成 
检查 6 
检查 了 
4 完成 
6 完成 
dfs(C2) 0 TITTTTT 
检查 0 
2 完成 
dfs(1) ”TTTTT 
检查 0 
1 完成 
检查 5 
9 完成 
dfs(7) 1 TITTTTIT 
dfs(8) 4 TT 
检查 7 
5 完成 
7 完成 
dfs(9) 2 TFTTTTTTT 
dfs(11) g FITTTTIYTTT T 
检查 9 
dfs(12) 1 
检查 11 
检查 9 
12 完成 
1 完成 
dfs(10) 外 
检查 9 
10 完成 
检查 12 
9 完成 
图 4.1.21 


O12345678 910117 


0 o 
o 0 0 
0 000 
0 oooo0 
ooooo0 
0000000 


0000000 1 
00000001 1 


00000001 


12 
0000000112 2 


0000000112 22 


0000000112 222 


使 用 深度 优先 搜索 的 轨迹 ， 寻 找 所 有 连通 分 量 


我 们 已 经 用 深度 优先 搜索 解决 了 几 个 非常 基础 的 问题 。 这 种 方法 很 简单 ， 递 归 实现 使 我 们 能 够 进行 
复杂 的 运算 并 为 一 些 图 的 处 理 问题 给 出 简洁 的 解决 方法 。 在 表 41.7 中 , 我 们 为 下 面 两 个 问题 作出 了 解答 。 


检测 环 。 给 定 的 图 是 无 环 图 吗 ? 


双色 问题 。 能 够 用 两 种 颜色 将 图 的 所 有 项 点 着 色 ， 使 得 任意 一 条 边 的 两 个 端点 的 颜色 都 不 相同 


吗 ? 这 个 问题 也 等 价 于 : 这 是 一 幅 二 分 图 吗 ? 


深度 优先 搜索 和 已 学 习 过 的 其 他 算法 一 样 , 它 简洁 的 代码 下 隐藏 着 复杂 的 计算 .因此 ,研究 这 些 例子 、 
在 样 图 中 跟踪 算法 的 轨迹 并 加 以 扩展 、 用 算法 来 解决 环 和 着 色 的 问题 都 是 非常 值得 的 ( 留 作 练 习 ) 。 
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表 4.1.7 使 用 深度 优先 搜索 处 理 图 的 其 他 示例 
































任 务 实 现 
G 是 无 环 图 吗 ? (假设 不 存在 ”public s Cycle 
自 环 或 平行 边 ) { nN 
private boole marked: 
private boolean hasCycle; 
public Cycle(Craph ©) 
private void dfs(Graph G, int v, int 由 
warked[v] 
or Cint wt 
G, w, V); 
else if (w != u) hasCycle = true; 
public boolean hasCycle() 
{ return hasCycle; } 
G 是 二 分 图 吗 ?( 双色 问题 ) public class TwoColor 
private boolean[] marked 
private boolean[] color; 
private boolean isTwoColorable = true; 
pubiic TwoColor(Graph C6) 
{ 
marked ~ new boolean[G.VO]; 
color = new boolean[G.V()] 
for (int s = 0; s < G.VO) 
color[w] = !color[v]; 
else if (color[w] 一 color[v]) isTwoColorable = false; 
public boolean isBipartite() 
{ return isTwoColorable; } 
547] } 











4.1.7 符号 图 

在 典型 应 用 中 , 图 都 是 通过 文件 或 者 网 页 定义 的 , 使 用 的 是 字符 串 而 非 整 数 来 表示 和 指 代 顶 点 。 
为 了 适应 这 样 的 应 用 ， 我 们 定义 了 拥有 以 下 性 质 的 输入 格式 : 

口 顶点 名 为 字符 串 ; 


口 用 指定 的 分 隔 符 来 隔 开 顶点 名 ( 允许 顶点 名 
中 含有 空格 ) ; 
口 每 一 行 都 表示 一 组 边 的 集合 每 一 条 边 都 连 
接着 这 一 行 的 第 一 个 名 称 表示 的 顶点 和 其 他 
名 称 所 表示 的 顶点 ; 
口 顶点 总 数 性 和 迈 的 总 数 已 都 是 隐 式 定义 的 。 
图 4.1.22 是 一 个 简单 的 示例 。Routes bdt 文件 表 
示 的 是 一 个 小 型 运输 系统 的 模型 ， 其 中 表示 每 个 顶点 
的 是 美国 机 场 的 代码 ， 连 接 它们 的 边 则 表示 顶点 之 间 
的 航线 。 文 件 只 是 一 组 边 的 列表 。 图 4.1.23 所 示 的 是 
-个 更 庞大 的 例子 ， 取 自 movies txt， 即 3.5 节 中 介 
绍 的 互联 网 电影 数据 库 。 还 记得 吗 ? 这 个 文件 的 每 一 
行 都 列 出 了 一 个 电影 名 以 及 出 演 该 部 电影 的 一 系列 
演员 。 从 图 的 角度 来 说 ， 我 们 可 以 将 它 看 作 一 幅 图 的 
定义 ， 电 影 和 演员 都 是 顶点 ， 而 邻接 表 中 的 每 一 条 边 


都 将 电影 和 它 的 表演 者 联系 起 来 。 注 意 ， 这 是 一 幅 二 分 图 一 电影 顶点 之 间或 者 演员 结 点 之 间 都 没有 


边 相连 。 
4.1.7.1 API 
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routes ,txt 


图 4.F22 符号 图 示例 ( 边 的 列表 ) 


表 4.1.8 中 ，AP1 定 义 的 Graph 用 例 可 以 直接 使 用 已 有 的 图 算法 来 处 理 这 种 文件 定义 的 图 。 


表 4.1.8 用 符号 作为 顶点 名 的 图 的 API 


一 一 一 一 一- 


public class SymbolGraph 





SymbolGraph(String filename, 
String delim) 


boolean contains(String key) 
int index(String key) - 
String name(int v) 
Graph GO 


“这 份 API 定义 了 一 个 梅 造 函 数 来 读 取 并 构造 图 ， 用 name 方法 和 index() 方法 将 输入 流 中 的 


顶点 名 和 图 算法 使 用 的 顶 点 索引 对 应 起 来 。 
4.1.7.2 ”测试 用 例 


下 一 页 框 注 所 示 的 是 符号 图 的 测试 用 例 ， 它 用 第 一 个 命 信行 参数 指定 的 文件 《第 三 -个 命令 行 参 
数 指定 了 分 隔 符 ) 来 构造 一 幅 图 并 从 标准 输入 接受 查询 。 用 户 可 以 输入 一 个 顶点 名 并 得 到 该 顶点 的 
相 邻 结 点 的 列表 。 这 个 用 例 提供 的 正好 是 3.5 节 中 研究 过 的 反 向 索引 的 功能 。 以 routes.txt 为 例 ， 你 
可 以 输入 一 个 机 场 的 代码 来 查找 能 从 该 机 场 直 飞 到 达 的 城市 ， 但 这 些 信息 并 不 是 直接 就 能 从 文件 中 
得 到 的 。 对 于 movies.txt， 你 可 以 输入 一 个 演员 的 名 字 来 查看 数据 库 中 他 所 出 演 的 影片 列表 。 输 入 
一 部 电影 的 名 字 来 得 到 它 的 演员 列表 ， 这 不 过 是 在 照搬 文件 中 对 应 行 数据 ， 但 输入 演员 的 名 字 来 得 
到 影片 的 列表 则 相当 于 查找 反 向 索引 。 尽 管 数据 库 的 构造 是 为 了 将 电影 名 连接 到 演员 ，. 二 分 图 模型 
同时 也 意味 着 将 演员 连接 到 电影 名 。 二 分 图 的 性 质 自 动 完成 取向 索引 。 以 后 我 们 将 会 用 到 这 将 


成 为 处 理 更 复杂 的 和 图 有 关 的 站 问题 的 基础 。- 一 





根据 filename 指定 的 文件 构造 图 ， 使 用 de1im 来 分 
隔 顶 点 名 


key 是 一 个 顶点 吗 
Key 的 索引 

索引 v 的 顶点 名 
隐藏 的 Graph 对 象 
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没有 显 式 的 
movies.txs， 一 指定 从 


Tin Men (1987)/DeBoy, David/Blumenfeld, Alan/... /Geppi, Cindy/Hershey, Barbara,.. 
Tirez sur le pianiste (1960)/Heynann, Claude/.../Berger, Nicole (I)... 

Titanic (1997)/Mazin, Stan/...DiCaprio, Leonardo/.../Winslet, Kate/... 

Titus (1999)/Weisskopf ,Hermann/Rhys，Matthew/.../McEwan， Geraldine 。 “/" 为 分 隔 符 
To Be or Not to Be (1942)/Verebes，Ern6 (I)/.../Lombard, Carole (I)... 
To Be or Not to Be (1983)/.../Brooks, Me] (I)/.../Bancroft, Anne/... 

To Catch a Thief (1955)/Paris, Manve]/.../Grant, Cary/.../Kelly, Grace/’ 
To Die For (1995)/Smith, Kurtwood/.../Kidman, Nicole/.../ Tucci, Mari 








电影 名 演员 


图 4.1.23 符号 图 示例 (邻接 表 ) 


public static void main(String[] args) 
{ 


String filename = args[0]; 
String delim = args[1]; 
SymbolGraph sg ~ new SymbolGraph(filename, delim); 


Graph G = sg.6O; 
while (StdIn.hasNextLine()) 


{ 
String source = StdIn.readLineO; 
for (int w : G.adj(sg.indexCsource))) 
Stdout.println(” ”+ sg.name(w)); 
路 


符号 图 API 的 测试 用 例 
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% java SymbolGraph movies.txt "/” 


Tin Men (1987) 
DeBoy, David 
Blumenfeld, Alan 
Geppi, Cindy 
% java SymbolGraph routes.txt " " Hershey, Barbara 
JFK NS 
ORD Bacon，Kevin 
ATL Mystic River (2003) 
NMCO Friday the 13th (1980) 
LAx Flatliners (1990) 


LAS Few Good Men, A (1992) 
PHX a 


很 显然 ， 这 种 方法 适用 于 我 们 过 到 过 的 所 有 图 算法 : 用 例 可 以 用 index() 将 顶点 名 转化 为 索引 
并 在 图 的 处 理 算法 中 使 用 ， 然 后 将 处 理 结果 用 name() 转化 为 顶点 名 以 方便 在 实际 应 用 中 使 用 。 
4.1.7.3 实现 

Symbo1Graph 的 完整 实现 请 见 下 面 的 框 注 “符号 图 的 数据 类 型 ”。 它 用 到 了 以 下 3 种 数据 结构 ， 
参见 图 4.1.24。 

口 一 个 符号 表 st， 键 的 类 型 为 String ( 顶点 名 ) ， 值 的 类 型 为 int (索引 ) ; 

口 一 个 数组 keys [] ， 用 作 反 向 索引 ， 保 存 每 个 顶点 索引 所 对 应 的 顶点 名 ; 

口 一 个 Graph 对 象 6， 它 使 用 索引 来 引用 图 中 顶点 。 

Symbo1Graph 会 遍历 两 遍 数 据 来 构造 以 上 数据 结构 ， 这 主要 是 因为 构造 Graph 对 象 需要 顶点 
总 数 F。 在 典型 的 实际 应 用 中 ,在 定义 图 的 文件 中 指明 普 和 无 ( 见 本 节 开 头 Graph 的 构造 函数 ) 可 
能 会 有 些 不 便 ， 而 有 了 Symbo1Graph， 我 们 就 可 以 方便 地 在 routes.txt 或 者 movies.txt 中 添加 或 者 删 
除 条 目 而 不 用 担心 需要 维护 边 或 顶点 的 总 数 。 


















































































































































符号 表 反 向 索引 无 向 图 
ST<String, Integer> st String[] keys Craph G 
JFKIO 0 |rx int V 10 
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2 |orD a 
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图 4.1.24 符号 图 中 用 到 的 数据 结构 
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符号 图 的 数据 类 型 





public class SymbolGraph 
总 > 
private ST<String, Integer> st; /7 符号 名 一 索引 
private String[] keys; // 索引 一 符号 名 
private Graph G; AV 图 
public SymbolGraph(String stream, String sp) 
{ 5 
st = new ST<String, Integer>O); 
In in = new In(stream); // 第 一 这 
while (in.hasNextLine()) // 构造 索引 
String[] a = in.readLine().sp1it(Csp); // 读 取 字符 事 
for (int i = 0;.i <.a.length; i++》 // 为 每 个 不 同 的 字符 事 关 联 一 个 索引 
if (lst.contains(a[i])) 
st.put(a[i], st.sizeO); 
本 
keys = new String[st-sizeO]; // 用 来 获得 顶点 名 的 反 向 索引 是 一 个 数组 


for (String name : st.keysCO) 
keys[st.get(nane)] = name; 


G = new Graph(st.sizeO); 

in = new In(stream); // 第 二 遍 
while (Cin.hasNextLineO) // 构造 图 
{ 


String[] a = in.readLine() .split(sp); // 将 每 一 行 的 顶点 和 该 行 的 其 他 顶点 相连 
int v = st.get(a[0]); 
for (int i = 1; i < a.length; i++) 
G.addEdge(v, st.get(a[i])); 
} 
区 


public boolean contains(String s) { return st.contains(s); } 


public int index(String s) { return st.get(s); } 
public String nameCint v) { return keys[v]; } 
public Graph GO { return G; } 


} 

这 个 Graph 实现 允许 用 例 用 字符 串 代 蔡 数 字 索 引 来 表示 图 中 的 顶点 。 它 维护 了 实例 变量 st ( 符号 
表 用 来 映射 顶点 名 和 索引 ) 、keys (数组 用 来 映射 案 引 和 项 点 名 ) 和 G ( 使 用 索引 表示 项 点 的 图 ) 。 为 
了 构造 这 些 数据 结构 , 代码 会 将 图 的 定义 处 理 两 遍 ( 定义 的 每 一 行 都 包含 一 个 顶点 及 它 的 相 邻 顶点 列表 ， 
用 分 隔 符 sp 隔 开 ) 。 





4.1.7.4 间隔 的 度数 

图 处 理 的 一 个 经 典 问题 就 是 ， 找 到 一 个 社交 网 络 之 中 两 个 人 间隔 的 度数 。 为 了 和 弄 清楚 概念 ， 我 
们 用 一 个 最 近 很 流行 的 名 为 Kevin Bacon 的 游戏 来 说 明 这 个 问题 。 这 个 游戏 用 到 了 刚才 讨论 的 “ 电 
影 - 演 员 ” 图 。Kevin Bacon 是 一 个 活跃 的 演员 ， 曾 出 演 过 许多 电影 。 我 们 为 图 中 的 每 个 演员 赋 一 


个 Kevin Bacon 数 : -Bacon 本 人 为 0， 所 有 和 Kevin Bacon 出 演 过 同一 部 电影 的 人 的 值 为 1， 所 有 - 


(除了 Kevin Bacon ) 和 Kevin Bacon 数 为 1 的 演员 出 演 过 同一 部 电影 的 其 他 演员 的 值 为 2， 依 次 类 
推 。 例 如，Meryl Streep 的 Kevin Bacon 数 为 1， 因 为 她 和 Kevin Bacon 一 同 出 演 过 The River Wild。 
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Nicole Kidman 的 值 为 2， 因 为 她 虽然 没有 和 Kevin Bacon 同 台 演出 过 任何 电影 ， 但 她 和 Tom Cruise 
一 起 演 过 Days of Thunder， 而 Tom Cruise 和 Kevin Bacon 一 起 演 过 4 Few Good Men。 给 定 一 个 演员 
的 名 字 ， 游 戏 最 简单 的 玩法 就 是 找 出 一 系列 的 电影 和 演员 来 回溯 到 Kevin Bacon。 例 如 ， 有 些 影迷 
可 能 知道 Tom Hanks 和 Lloyd Bridges 一 起 演 过 Joe Versus the Volcano， 而 Bridges 和 Grace Kelly 一 
起 演 过 High Noon，Kelly 又 和 Patrick Allen 一 起 演 过 Dial M for Miurder，Allen 和 Donald Sutherland 
一 起 演 过 The Eagle has Landed，Sutherland 和 Kevin Bacon 一 起 出 演 了 4nimal House。 但 知道 这 些 
也 并 不 足以 确定 Tom Hanks 的 Kevin Bacon 数 。 ( 他 的 值 实际 上 应 该 是 1， 因 为 他 和 Kevin Bacon 
在 4polio 13 中 合作 过 ) 。 你 可 以 看 到 Kevin Bacon 数 必须 定义 为 最 短 电影 链 的 长 度 ， 因 此 如 果 不 用 
计算 机 ， 人 们 很 难 知道 游戏 中 到 底 谁 赢 了 。 当 然 ， 如 后 面 框 注 “间隔 的 度数 ”中 Symbo1Graph 的 
用 例 Degrees0fSeparation 所 示 ，BreadthFirstPaths 才 是 我 们 所 要 的 程序 ， 它 通过 最 短路 径 来 
找 出 movies.txt 中 任意 演员 的 Kevin Bacon 数 。 这 个 程序 从 命令 行 得 到 一 个 起 点 ， 从 标准 输入 中 接 
受 查询 并 打印 出 一 条 从 起 点 到 被 查询 顶点 的 最 短路 径 。 因 为 movies.txt 所 构造 的 是 一 幅 二 分 图 ， 每 
条 路 径 上 都 会 交替 出 现 电影 和 演员 的 顶点 。 打 出 的 结果 可 以 证 明 这 样 的 路 径 是 存在 的 但 并 不 能 证 
明 它 是 最 短 的 一 一 你 需要 向 你 的 朋友 证 明 命题 B 才 行 ) 。DegreesOfSeparation 也 能 够 在 非 二 分 
图 中 找到 最 短路 径 。 例 如 ， 在 routes.txt 中 ， 它 能 够 用 最 少 的 边 找到 一 种 从 一 个 机 场 到 达 另 一 个 机 场 
的 方法 。 


% java DegreesOfSeparation movies.txt "/”"Bacon，Kevin” 
Kidman, Nicole 
Bacon, Kevin 
Few Good Men, A (1992) 
en Cruise, Tom 
Days of Thunder (1990) 
Kidman, Nicole 
Grant, Cary 和 
Bacon, Kevin 
Mystic River (2003) 
4 Willis, Susan 
Majestic, The (2001) 
Landau, Martin 
North by Northwest (1959) 
Grant, Cary 








553) 








你 可 能 会 发 现 用 Degrees0fSeparation 来 回答 一 些 关于 电影 行业 的 问题 很 有 趣 。 例 如 ， 你 不 
但 可 以 找到 演员 和 演员 之 间 的 间隔 ， 还 可 以 找到 电影 和 电影 之 间 的 间隔 。 更 重要 的 是 ， 间 隔 的 概 
念 在 其 他 许多 领域 也 被 广泛 研究 。 例 如 ， 数 学 家 也 会 玩 这 个 游戏 ， 但 他 们 的 图 是 用 一 些 论文 的 作 
者 到 PErds ( 20 世纪 的 一 位 多 产 的 数学 家 ) 的 距离 来 定义 的 。 类 似 地 ， 似 乎 新 泽 西 州 的 每 个 人 的 
Bruce Springsteen 数 都 为 2， 因 为 每 个 人 都 声称 自己 认识 某 个 认识 Bruce 的 人 。 要 玩 Erdas 的 游戏 ， 
你 需要 一 个 包含 所 有 数学 论文 的 数据 库 ; 要 玩 Sprintsteen 的 游戏 还 要 困难 一 些 。 从 更 严肃 的 角度 来 
说 ， 间 隔 度 数 的 理论 在 计算 机 网 络 的 设计 以 及 理解 各 个 科学 领域 中 的 自然 网 络 中 都 能 起 到 重要 的 
作用 。 h 554| 
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% java DegreesOfSeparation movies.txt "/" "Animal House (1978)” 


Titanic (1997) 
Animal House (1978) 
Allen, Karen (I) 
Raiders of the Lost Ark (1981) 
Taylor, Rocky (1) 
Titanic (1997) 

To Catch a Thief (1955) 
Animal House (1978) 
Vernon, John (CD 
Topaz (1969) 

Hitchcock, Alfred (I) 
To Catch a Thief (1955) 


间隔 的 度数 





public class Degrees0fSeparation 


public static void main(String[] args) 本 


SymbolGraph sg = new SymbolGraph(args[0], args[1]); 
Graph G = sg.6O; 


String source = args[2]; 

if (1sg.contains(source)) 

{ StdOut.printin(source + "not in database,."); return; 
int s’= sg.index(source); 

BreadthFirstPaths bfs = new BreadthFirstPaths(G, s); 


while (!StdIn.isEmptyO) 
{ S 


String sink = StdIn.readLine(); 
if (sg.contains(sink)) 


% java 
DegreesOfSeparation 
routes.txt " " JFK 
LAS 





Yint € = sg.1ndexCsink); 下 
if (bfs.hasPathTo(t)) 人 
for Cint v : bfs.pathTo(t)) pn 
StdOut.println(” ”+ sg.name(v)); LAS 
else StdOut.println("Not connected"); DFW 
3 IFK, 
else StdOut.println("Not ;in database.”"); ORD 
} DFW 
} 
} 国 
这 段 代码 使 用 了 Symbo1Graph 和 BreadthFirstPath 来 查找 图 中 的 最 短路 径 。 对 于 movies.txt， 可 
“以 用 它 来 玩 Kevin Bacon 游戏 。 
4.1.8 总 结 


在 本 节 中 ,我 们 介绍 了 几 个 基本 的 概念 ,本章 的 其 余部 分 会 继续 扩展 并 研究 : 


口 图 的 术 i 
局 一 种 图 的 表示 方法 ， 能 够 处 理 大 型 而 稀 朴 的 图 ; 


口 和 图 处 理 相关 的 类 的 设计 模式 ， 其 实现 算法 通过 在 相关 的 类 的 构造 函数 中 对 图 进行 预 处 理 、 
构造 所 希 的 数据 结构 来 高 效 支持 用 例 对 图 的 查询 ; 





口 深度 优先 搜索 和 广度 优先 搜索 ;一 
口 支持 使 用 符号 作为 图 的 项 点 名 的 类 。 
表 4.1.9 总 结 了 我 们 已 经 学 习 过 的 所 有 图 算法 的 实现 。 这 些 算法 非常 适合 作为 图 处 理 的 入门 学 





习 。 随 后 学 习 更 加 复杂 类 型 的 图 以 及 处 理 更 加 困难 的 问题 时 ， 我 们 还 会 用 到 这 些 代码 的 变种 。 在 考 
虑 了 边 的 方向 以 及 权重 之 后 ， 同 样 的 问题 会 变 得 困难 得 多 ， 但 同样 的 算法 仍然 奏效 并 将 成 为 解决 更 
加 复杂 问题 的 起 点 。 
表 4.1.9 本 节 中 得 到 解决 的 无 向 图 处 理 问题 
间 题 解决 方法 参 阅 
单 点 连通 性 DepthFirstSearch 4.13.2 节 
单 点 路 径 DepthFirstPaths 算法 4.1 
单 点 最 短路 径 BreadthFirstPaths 算法 4.2 
连通 性 Cc = 算法 43 
检测 环 Bee cycle - 表 4.1.7 
双色 问题 (图 的 二 分 性 ) TwoColor 表 4.1.7 
图 答 颖 
间 为 什么 不 把 所 有 的 算法 都 实现 在 Graphjava 中 ? 
答 “可 以 这 么 做 ， 可 以 向 基本 的 Graph 抽象 数据 类 型 的 定义 中 添加 查询 方法 (以 及 它们 需要 的 私有 变量 和 
方法 等 ) 。 尽 管 这 种 方式 可 以 用 到 一 些 我 们 所 使 用 的 数据 结构 的 优点 ， 它 还 是 有 一 些 严重 的 缺陷 ， 因 
为 图 处 理 的 成 本 比 13 节 中 过 到 那些 基本 数据 结构 要 高 得 多 。 这 些 缺 点 主要 有 : 
口 在 图 处 理 中 ， 需 要 实现 的 操作 还 有 很 多 ， 我 们 无 法 在 一 份 API 中 全 部 精确 地 定义 它们 ; 
口 简单 任务 的 API 和 复杂 任务 所 使 用 的 API 是 相同 的 ; 
口 一 个 方法 将 可 以 访问 另外 一 个 方法 专用 的 变量 ， 这 有 悖 我 们 需要 遵守 的 封装 原则 。 
这 种 情况 并 不 罕见 ， 这 种 API 被 称 为 宽 接 口 〈 请 见 1.2.5.2 节 ) 。 本 章 包含 如 此 众多 的 图 算法 ， 
将 导致 这 种 API 变 得 非常 宽 。 
间 ”SymbolGraph 真 需要 将 图 的 定义 遍历 两 遍 吗 ? 
答 不 ， 你 也 可 以 将 用 时 增加 1gN 并 直接 用 ST 而 非 Bag 来 实现 adj()。 我 们 的 另 一 本 书 An lntrodction to 


Programming in Java: An Interdisciplinary Approach 中 含有 使 用 这 种 方法 的 一 个 实现 。 


图 练习 


4.1.1 一 由 含有 KV 个 顶点 且 不 含有 平行 边 的 图 中 至 多 含有 多 少 条 边 ? 一 幅 含 有 个 顶点 的 连通 图 中 至 少 


含有 多 少 条 边 ? 


4.1.2 按照 正文 中 示意 图 的 样式 ( 请 见 图 4.1.9 ) 画 出 Graph 的 构造 函数 在 处 理 图 4.1.25 的 tinyGex2.txt 


4.1.3 为 Graph 添加 一 个 复制 构造 函数 ， 它 接受 一 幅 图 G 然后 创建 并 初始 化 这 幅 图 


时 构造 的 邻接 表 。 





一 个 副本 。G 的 用 
例 对 它 作出 的 任何 改动 都 不 应 该 影响 到 它 的 副本 。 


4.1.4 为 Graph 添加 一 个 方法 hasEdge() ， 它 接受 两 个 整 型 参数 v 和 w。 如 果 图 含有 边 v-w， 方 法 返回 


true， 否 则 返回 false。 


be ee 汉 二 - 4.1 无 向 图 本 359 
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4.1.5 修改 Graph， 不 允许 存在 平行 边 和 自 环 - 
4.1.6 有 一 张 含 有 四 个 顶点 的 图 ， 其 中 的 边 为 0-1、1-2、2-3 和 3-0。 给 出 一 种 邻接 表 数 组 ， 无 论 以 任 
何 顺序 调用 addEdgeQ 来 添加 这 些 边 都 无 法 创建 它 。 

4.1.7 为 Graph 编写 一 个 测试 用 例 ， 用 命令 行 参数 命名 并 从 输入 流 中 接受 一 幅 图 ， 然 后 用 tostring() 

方法 将 其 打印 出 来 。 

4.1.8 按照 正文 中 的 要 求 ， 用 union-find 算法 实现 4.1.2.3 中 搜索 的 API。 

4.1.9 使 用 dfs(0) 处 理由 Graph 的 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 并 按照 4.1.3.5 

节 的 图 4.1.14 的 样式 给 出 详细 的 轨迹 。 同 时 ， 画 出 edgeTo[] 所 表示 的 树 。 

4.1.10 证明 在 任意 一 幅 连 通 图 中 都 存在 一 个 顶点 ， 删 去 它 ( 以 及 和 它 相 连 的 所 有 边 ) 不 会 影响 到 图 的 
连通 性 ， 编 写 一 个 深度 优先 搜索 的 方法 找 出 这 样 一 个 顶点 。 提 示 : 留心 那些 相 邻 顶点 全 部 都 被 
标记 过 的 顶点 。 

4.1.11 使 用 算法 4.2 中 的 bfs(G,0) 处 理由 Graph 的 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 

”图 并 夯 出 edgeTor] 所 表示 的 树 : 
“4.1.12 如 果 v 和 w 都 不 是 根 结 点 ， 能 够 由 广度 优先 搜索 得 到 的 树 中 计算 它们 之 间 的 距离 吗 ? 
4.1.13 为 BreadthFirstPaths 的 API 添加 并 实现 一 个 方法 distTo0O， -返回 从 起 点 到 给 定 的 顶 点 的 最 短 
” 路径 的 长 度 ， 它 所 需 的 时 间 应 该 为 常数 。 

4.1.14 如果 用 栈 代替 队列 来 实现 广度 优先 搜索 ， 我 们 还 能 得 到 最 短路 从 四? 

4.1.15 修改 Graph 的 输入 流 构造 函数 ， 允 许 从 标准 输入 读 人 图 的 邻接 表 ( 方法 类 似 于 Symbo- 
1Graph ) ， 如 图 4.1.26 的 tinyGadij,txt 所 示 。 在 顶点 和 边 的 总 数 之 后 ， 每 一 行 由 一 个 顶点 和 它 的 





所 有 相 邻 顶点 组 成 。 
Co 
(© 
区 (2) 
ri 
tinyGex2, txt 。 不 
er 6 3 

人 多 SS rinyoodj .txt BO 
过 @ i “es 13 vertices, 13 edges 
06 01256 2 3 顺序 
356 Ze 3 二 和 输入 相反 
io3 GE 456 3: 54 
711 78 4: 653 
78 9 10 11 12 :430 
us fa 11 12 6: 40 
si Ll a 
2 YY 了 1 10 
5 10 10: 9 每 条 边 在 第 二 
4 © 11; 12 9 ”次 出 现 的 时 候 
人 四 12: 119 会 显示 为 红色 

4.1.25 图 4.126 


4.1.16 “顶点 v 的 离心 幸 是 它 和 离 它 最 远 的 顶点 的 最 短 距离 。 图 的 直径 即 所 有 顶点 的 最 大 离心 率 ， 半 径 
为 所 有 顶点 的 最 小 离心 率 ， 中 点 为 离心 率 和 半径 相等 的 顶点 。 实 现 以 下 API， 如 表 4.1.10 所 示 。 
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表 4.1.10 


public class GraphProperties 





GraphProperties(Graph ©) 


eccentricity(int v) 
diameterO 

radiusO 

center() 


4.1.17 


构造 函数 ( 如 果 G 不 是 连通 的 ， 抛 出 异常 ) 
v 的 离心 率 

6 的 直径 

6 的 半径 

G 的 某 个 中 点 


图 的 周 长 为 图 中 最 短 环 的 长 度 。 如 果 是 无 环 图 ， 则 它 的 周 长 为 无 穷 大 。 为 GraphProper-ties 

















添加 一 个 方法 girth() ， 返 回 图 的 周 长 。 提 示 : 在 每 个 顶点 都 进行 广度 优先 搜索 。 含 有 s 的 最 [558 
小 环 为 s 到 某 个 顶点 v 的 最 短 距离 加 上 v 到 s 的 最 短 距离 。 559| 
4.1.18 使 用 CC 找 出 由 Graph 的 输入 流 构 造 两 数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 中 的 所 有 连 
通 分 量 并 按照 图 4.1.21 的 样式 给 出 详细 的 轨迹 。 
4.1.19 使 用 Cycle 在 由 Graph 的 输入 流 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 中 找到 的 一 
个 环 并 按照 本 节 示意 图 的 样式 给 出 详细 的 轨迹 。 在 最 坏 情况 下 ，Cycle 构造 丙 数 的 运行 时 间 的 增 
长 数量 级 是 多 少 ? 
4.1.20 使 用 TwoColor 给 出 由 Graph 的 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 的 一 个 着 色 
方案 并 按照 本 节 示意 图 的 样式 给 出 详细 的 轨迹 。 在 最 坏 情况 下 ，TwoColor 构造 两 数 的 运行 时 间 
的 增长 数量 级 是 多 少 ? 
4.1.21 用 SymbolGraph 和 movie.txt 找到 今年 获得 奥斯卡 奖 提名 的 演员 的 Kevin Bacon 数 。 
4.1.22 编写 一 段 程序 BaconHistogram， 打 印 一 幅 Kevin Bacon 数 的 柱状 图 ， 显 示 movies.txt 中 Kevin 
Bacon 数 为 0、1、2、3…… 的 演员 分 别 有 多 少将 值 为 无 穷 大 的 人 归 为 一 类 ( 不 与 Kevin Bacon 连通 )。 
4.1.23 计算 由 movies.txt 得 到 的 图 的 连通 分 量 的 数量 和 包含 的 顶点 数 小 于 10 的 连通 分 量 的 数量 。 计 算 
最 大 的 连通 分 量 的 离心 率 、 直 径 、 半 径 和 中 点 。Kevin Bacon 在 最 大 的 连通 分 量 之 中 吧 ? 
4.1.24 修改 Degrees0fSeparation， 从 命 
De OfSel ionDFS ies. 
令 行 接受 一 个 整 型 参数 y, 忽略 上 映 。 Sol eee, resorSenararionDFS moviestxt 
年 数 超过 y 的 电影 。 Query: Kidman, Nicole 
Bacon, Kevin 
4.1.25 编写 一 个 类 似 于 DegreesOfSe- Mystic River (2003) 
paration 的 Symbo1Graph 用 例 ， 使 0 Tarar Thmy 
hstick Men (2003) 
用 深度 优先 搜索 代 答 广度 优先 搜索 et ds 
来 查找 两 个 演员 之 间 的 路 径 ， 输 出 rt 
类 似 如 右 侧 框 注 所 示 的 数据 格式 。 Sky Captain. .. (2004) 
1 评 Jolie, Angelin: 
4.1.26 使 用 1.4 节 中 的 内 存 使 用 模型 评估 用 半 可 a 6 
Graph 表示 一 幅 含 有 大 个 项 点 和 已 Anderson, Gillian (I) 
条 边 的 图 所 需 的 内 存 。 Cock and Bu11 Story, A (2005) 
到 Henderson, Shirley (IT) 
4.1.27 如 果 重 命名 一 幅 图 中 的 顶点 就 能 够 24 Hour Party People (2002) 
使 之 变 得 和 另 一 幅 图 完全 相同 ， 这 Eccleston, Christopher 
i d: 
两 由 图 就 是 同 构 的 。 夯 出 含有 2. 3、 ep eat 
4、5 个 顶点 的 所 有 非 同 构 的 图 。 Maye of loger tO S60| 
4.1.28 修改 Cycle. 允 许 图 含有 自 环 和 平行 边 。 a s61 
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国 提高 三 


4.1.29 














欧 拉 环 和 汉密尔顿 环 。 考 虑 以 下 4 组 边 定义 的 图 : 


晶 
贫 


哪 几 幅 图 含有 欧 拉 环 (恰好 包含 了 所 有 的 边 且 没 有 重复 的 环 ) ?哪儿 幅 图 含有 汉 密 尔 
顿 环 ( 恰好 包含 了 所 有 的 顶点 且 没 有 重复 的 环 ) ? 
图 的 枚 举 。 含 有 VV 个 顶点 和 条 边 (不 含 平行 边 ) 的 不 同 的 无 向 图 共有 多 少 种 ? 
检测 平行 边 。 设 计 一 个 线性 时 间 的 算法 来 统计 图 中 的 平行 边 的 总 数 。 
奇 环 。 证 明 一 幅 图 能 够 用 两 种 颜色 着 色 ( 二 分 图 ) 当 且 仅 当 它 不 含有 长 度 为 奇数 的 环 。 
符号 图 。 实现 一 个 Symbo1Graph ( 不 一 定 必须 使 用 Graph ) ， 只 需要 中 历 一 饥 图 的 定义 数据 。 
由 于 需要 查找 符号 表 ， 实 现 中 图 的 各 种 操作 时 耗 可 能 会 变 为 原来 的 logV 售 。 
双向 连通 性 。 如 果 任 意 一 对 顶点 都 能 由 两 条 不 同 ( 没有 重合 的 边 或 顶点 ) 的 路 径 连 通则 图 就 是 
双向 连通 的 。 在 一 幅 连 通 图 中 ， 如 果 一 个 顶点 被 删 掉 后 图 不 再 连通 ,该 顶点 就 被 称 为 关节 点 。 
证 明 没有 关节 点 的 图 是 双向 连通 的 。 提 示 : 给 定 任意 一 对 顶点 s 和 t 和 光村 办 训 的 往生 ; 
由 于 路 径 上 没有 任何 顶点 为 关节 点 ， 构 造 另 一 条 不 同 的 路 径 连接 s 和 t。 
边 的 连通 性 。 在 一 幅 连 通 图 中 ， 如 果 一 条 边 被 删除 后 图 会 被 分 为 两 个 独立 的 连通 分 量 ， 这 条 边 
就 被 称 为 桥 。 没 有 桥 的 图 称 为 边 连通 图 。 开 发 一 种 基于 深度 优先 搜索 算法 的 数据 类 型 ， 判 断 一 
个 图 是 否 是 边 连 通 图 。 
欧 拉 图 。 为 平面 上 的 图 设计 并 实现 一 份 叫做 EuiideanGraph 的 API, 其 中 图 所 有 顶点 均 有 坐标 。 
实现 一 个 showQ 方法 ， 用 StdDraw 将 图 绘 出 。 
图 像 处 理 。 在 一 幅 图 像 中 将 所 有 相 邻 的 、 颜 色相 同 的 点 相连 就 可 以 得 到 一 幅 图 ， 为 这 种 隐 式 定 
义 的 图 实现 填充 (flood fill ) 操作 。 
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随机 图 。 编 写 一 个 程序 ErdosRenyicraph， 从 命令 行 接受 整数 天 和 丰 ， 随 机 生成 已 对 0 到 71 
之 间 的 整数 来 构造 一 幅 图 。 注 意 ， 生 成 器 可 能 会 产生 自 环 和 平行 边 。 

随机 简单 图 。 编 写 一 个 程序 RandomsimpieCraph， 从 命令 行 接受 整数 上 和 已， 用 均等 的 几率 生 
成 含有 了 个 顶点 和 已 条 边 的 所 有 可 能 的 简单 图 。 

人 随机 稀 牙 图 。 编 写 一 个 程序 RandomSparseGraph， 根 据 精心 选择 的 一 组 六 生 的 值 生成 随机 的 
稀 破 图 ， 以 便 用 它 对 由 Erdss-Renyi 模型 得 到 的 图 进行 有 意义 的 经 验 性 测试 。 

随机 欧 拉 图 。 编 写 一 个 EulideanGraph 的 用 例 ( 请 见 练习 4.1.36 ) RandomEulideanGraph， 用 
随机 在 平面 上 生成 V 个 点 的 方式 生成 随机 图 ,然后 将 每 个 起 和 在 以 该 点 为 中 心 半径 为 4 的 圆 办“ 
的 其 他 点 相连 。 注 意 : 如 果 d 大 于 阔 值 gr75 7， 那么 得 到 的 图 几乎 必然 是 连通 的 ， 否 则 得 到 
的 图 九 乎 必然 是 不 连通 的 。 t 
随机 网 格 图 。 编写 一 个 EulideanGraph 的 用 例 RandomGridGraph， 将 VF 乘 VF 的 网 格 中 的 所 . 
有 项 点 和 它们 的 相 邻 项 点 相连 (参考 练习 1.5.18 ) 。 修 改 代码 为 图 额外 添加 条 随机 的 边 。 对 于 
较 大 的 R， 缩 小 网 格 使 得 总 边 数 保持 在 个 左右 。 添 加 一 个 选项 ， 使 得 出 现 一 条 从 顶点 s 到 顶 
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点 v 的 边 的 概率 与 s 到 t 的 欧 拉 距 离 成 反比 。 

真实 世界 中 的 图 。 从 网 上 找 出 一 幅 巨 型 加 权 图 一 一 可 以 是 一 张 标记 了 距离 的 地 图 ， 或 者 是 标明 
了 费用 的 电话 连接 ， 或 是 航班 价目 表 。 编 写 一 段 程序 RandomRea1Graph， 从 这 些 顶 点 构成 的 子 
图 中 随机 选取 7 个 顶点 ， 然 后 再 从 这 些 项 点 构成 的 子 图 中 随机 选取 已 条 边 来 构造 一 幅 图 。 

随机 区 间 图 。 考 虑 数 轴 上 的 天 个 区 间 的 集合 。 这 样 的 一 个 集合 定义 了 一 幅 区 间 图 ， 图 中 的 每 个 
顶点 都 对 应 一 个 区 间 ， 而 边 则 对 应 两 个 区 间 的 交集 ( 大 小 不 限 ) 。 编 写 一 段 程序 ， 随 机 生成 大 
小 均 为 4 的 V 个 区 间 ， 然 后 构造 相应 的 区 间 图 。 提 示 : 使 用 二 分 查找 树 。 

随机 运输 图 。 定 义 运输 系统 的 一 种 方法 是 定义 一 个 顶点 链 的 集合 ， 每 条 顶点 链 都 表示 一 条 连接 
了 多 个 顶点 的 路 径 。 例 如 ， 链 0-9-3-2 定义 了 边 0-9、9-3 和 3-2。 编 写 一 个 EulideanGraph 
的 用 例 RandomTransportation， 从 一 个 输入 文件 中 构造 一 幅 图 ， 文 件 的 每 行 均 为 一 条 链 ， 使 
用 符号 名 。 编 辑 一 份 合适 的 输入 使 得 程序 能 够 从 中 构造 一 幅 和 巴黎 地 铁 系 统 相对 应 的 图 。 

测试 所 有 的 算法 并 研究 所 有 图 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 段 程 
序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程 序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模型 进行 实 
验 。 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结果 以 及 由 此 得 出 的 任何 结论 。 
深度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 判断 DepthFirstPaths 
在 两 个 随机 选 定 的 顶点 之 间 找 到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 长 度 。 

广度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 判 断 Breadth- 
FirstPaths 在 两 个 随机 选 定 的 顶点 之 间 找 到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 长 度 。 
连通 分 量 。 运 行 实验 随机 生成 大 量 的 图 并 画 出 柱状 图 ， 根 据 经 验 判断 各 种 类 型 的 随机 图 中 连通 
分 量 的 数量 的 分 布 情况 。 

双色 问题 。 大 多 数 的 图 都 无 法 用 两 种 颜色 着 色 ， 深 度 优先 搜索 能 够 很 快 发 现 这 一 点 。 对 于 各 种 
图 模型 ， 使 用 经 验 性 的 测试 来 研究 TwoColor 检查 的 边 的 数量 。 
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4.2 ”有 向 图 


在 有 向 图 中 ， 边 是 单 向 的 : 每 条 边 所 连接 的 两 个 顶点 都 是 一 个 有 序 对 ， 它 们 的 邻接 性 是 单 向 的 
( 表 4.2.1) 。 许 多 应 用 ( 比如 表示 网 络 、 任 务 调度 条 件 或 是 电话 的 图 ) 都 是 天 然 的 有 向 图 。 为 实现 
添加 这 种 单 向 性 的 限制 很 容易 也 很 自然 ， 看 起 来 没什么 坏处 。 但 实际 上 这 种 组 合 性 的 结构 对 算法 有 
深刻 的 影响 ， 使 得 有 向 图 和 无 向 图 的 处 理 大 有 不 同 。 本 节 中 ， 我 们 会 学 习 搜索 和 处 理 有 向 图 的 一 些 
经 典 算法 。 


表 4.2.1 实际 生活 中 的 典型 有 向 图 





应 用 项 点 边 
食物 链 物种 捕食 关系 
互联 网 连接 网 页 超 链接 
程序 模块 外 部 引用 
手机 电话 呼叫 
学 术 研究 论文 引用 
例 融 股票 交易 
网 络 计算 机 网 络 连接 

4.2.1 术语 


虽然 我 们 为 有 向 图 的 定义 和 无 向 图 几乎 相同 ( 将 使 用 的 部 分 算法 和 代码 也 是 ) ， 但 仍然 需要 在 
这 里 重复 一 遍 。 为 了 说 明 边 的 方向 性 而 产生 的 细小 文字 差异 所 代表 的 结构 特性 正 是 本 节 的 重点 。 


定义 。 一 幅 有 方向 性 的 图 ( 或 有 向 图 ) 是 由 一 组 顶点 和 一 组 有 方向 的 边 组 成 的 ， 每 条 有 方向 的 
边 都 连接 着 有 序 的 一 对 顶点 。 


我 们 称 一 条 有 向 边 由 第 一 个 顶点 指出 并 指向 第 二 个 顶点 。 在 一 幅 有 向 图 中 ， 一 个 顶点 的 出 度 为 
由 该 顶点 指出 的 边 的 总 数 ; 一 个 顶点 的 入 度 为 指向 该 顶点 的 边 的 总 数 ( 请 见 图 4.2.1 ) 。 当 上 下 文 的 
意义 明确 时 ， 我 们 在 提 到 有 向 图 中 的 边 时 会 省 略 有 向 二 字 。 一 条 有 向 边 的 第 一 个 顶点 称 为 它 的 头 ， 
第 二 个 顶点 则 被 称 为 它 的 尾 。 将 有 向 边 画 为 由 头 指向 尾 的 一 个 箭头 。 用 v 一 w 来 表示 有 向 图 中 一 条 
由 v 指 向 w 的 边 。 和 无 向 图 一 样 ， 本 节 的 代码 也 能 处 理 自 环 和 平行 边 ， 但 它们 不 会 出 现在 例子 中 ， 
在 正文 中 一 般 也 不 会 提 到 它们 。 除 了 特殊 的 图 ， 一 幅 有 向 图 中 的 两 个 顶点 的 关系 可 能 有 4 种 : 没有 
边 相 连 ; 存在 从 v 到 w 的 边 v 一 w; 存在 从 w 到 v 的 边 w 一 v; 既 存 在 v 一 w 也 存在 w 一 v， 即 双向 
的 连接 。 


向 图 中 ， 有 向 路 径 由 一 系列 顶点 组 成 ， 对 于 其 中 的 每 个 顶点 都 存在 一 条 有 向 边 
下 一 个 顶点 。 有 向 环 为 一 条 至 少 含有 一 条 边 且 起 点 和 终点 相同 的 有 向 路 径 。 
(除了 起 点 和 终点 必须 相同 之 外 ) 不 含有 重复 的 顶点 和 这 的 环 。 路 径 或 者 环 







和 无 环 图 一 样 ， 我 们 假设 有 向 路 径 都 是 简单 的 ， 除 非 我 们 明确 指出 了 某 个 重复 了 的 顶点 ( 像 有 
向 环 的 定义 中 那样 ) 或 是 指明 是 一 般 性 的 有 向 图 。 当 存在 从 v 到 w 的 路 径 时 ， 称 顶点 w 能 够 由 顶点 
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v 达 到 。 我 们 约定 ， 每 个 顶点 都 能 够 达到 它 自己 。 除 了 这 种 情况 之 外 ， 在 有 向 图 中 由 v 能 够 到 达 w 
并 不 意味 着 由 w 也 能 到 达 v。 这 个 不 同 虽然 很 明显 但 非常 重要 ， 后 面 将 会 看 到 这 一 点 。 

要 理解 本 节 中 的 算法 ， 你 就 必须 要 理解 有 向 图 中 的 可 达 性 和 无 向 图 中 的 连通 性 的 区 别 。 理 解 这 
种 区 别 可 能 比 你 想象 得 更 困难 。 例 如 ， 尽 管 你 可 能 一 眼 就 能 看 出 一 小 幅 无 向 图 中 的 两 个 顶点 之 间 是 
否 连 通 ， 但 是 在 一 小 幅 有 向 图 中 快速 找 出 一 条 有 向 路 径 就 不 那么 容易 了 ， 比 如 图 4.2.2 所 示 的 例子 。 
处 理 有 向 图 就 如 同 在 一 座 只 有 单行 道 的 城市 中 穿梭 ， 而 且 这 些 单行 道 的 方向 是 杂乱 无 章 的 。 在 这 种 
情况 下 ， 想 从 一 处 到 达 另 一 处 会 是 一 件 很 麻烦 的 事 。 但 与 直觉 相反 ， 我 们 用 来 表示 有 向 图 的 标准 数 
据 结构 甚至 比 无 向 图 的 表示 更 加 简单 ! 








有 向 边 
长 度 为 3 顶点 
的 有 向 环 i 
长 度 为 4 的 
有 向 路 径 
入 度 为 3 出 一 
度 为 2 的 顶点 
图 4.2.1 有 向 图 详解 图 4.2.2 在 这 幅 有 向 图 中 ， 从 v 能 够 到 达 w 吗 567 











4.2.2 ”有 向 图 的 数据 类 型 
以 下 这 份 API 以 及 下 一 页 中 的 Digraph 类 和 Graph 类 本 质 上 是 相同 的 ( 请 见 4.1.2.2 节 框 注 
“Graph 数据 类 型 ”) 。 


表 4.2.2 ”有 向 图 的 API 
public class Digraph 








DigraphCint V) 创建 一 幅 含 有 7 个 顶点 但 没有 边 的 有 向 图 
Digraph(In in) 从 输入 流 in 中 读 取 一 幅 有 向 图 
int VvO 顶点 总 数 
int EQ 边 的 总 数 
void addEdge(Cint v, int w) 向 有 向 图 中 添加 一 条 边 v 一 w 
Iterable<Integer> adj(int v) 由 v 指 出 的 边 所 连接 的 所 有 顶点 
Digraph reverseQO) 该 图 的 反 向 图 
String toStringO) 对 象 的 字符 串 表示 





4.2.2.1 有 向 图 的 表示 

我 们 使 用 邻接 表 来 表示 有 向 图 ， 其 中 边 v 一 w 表示 为 顶点 v 所 对 应 的 邻接 链表 中 包含 一 个 w 顶 
点 。 这 种 表示 方法 和 无 向 图 几乎 相同 而 且 更 明晰 ， 因 为 每 条 边 都 只 会 出 现 一 次 ， 如 后 面 框 注 “有 向 
图 (diagraph ) 的 数据 类 型 ”所 示 。 
4.2.2.2 输入 格式 

由 输入 流 读 取 有 向 图 的 构造 函数 的 代码 与 Graph 类 中 相应 构造 函数 的 代码 完全 相同 一 一 因为 两 者 
的 输入 格式 是 一 样 的 ， 但 所 有 的 边 都 是 有 向 边 。 在 边 列表 的 格式 中 ， 一 对 顶点 v 和 w 表 示 边 v 一 w。 
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4.2.2.3 ”有 向 图 取 反 


Digraph 的 API 中 还 添加 了 一 个 方法 reverse()。 它 返回 该 有 向 图 的 一 个 副本 ,但 将 其 中 所 有 
边 的 方向 反 转 。 在 处 理 有 向 图 时 这 个 方法 有 时 很 有 用 ， 因 为 这 样 用 例 就 可 以 找 出 “指向 ”每 个 顶点 
的 所 有 边 ， 而 adjQ 〇 给 出 的 是 由 每 个 顶点 指出 的 边 所 连接 的 所 有 顶点 。 


4.2.2.4 ”项 点 的 符号 名 


在 有 向 图 中 ， 人 允许 用 例 使 用 符号 作为 顶点 名 也 更 加 简单 。 要 实现 与 SymbolGraph 类 似 的 
Symbo1Digraph 类 ， 只 需要 将 其 中 的 Graph 字样 都 替换 成 Digraph 即 可 。 
花 一 点 时 间 对 比 一 下 后 面 框 注 中 的 代码 和 示意 图 与 4.1.2.1 节 及 4.1.2.2 节 的 框 注 “Graph 数据 类 
型 ”中 无 向 图 的 代码 是 非常 有 价值 的 。 在 用 邻接 表 表 示 无 向 图 时 ， 如 果 v 在 w 的 链表 中 , 那么 w 必 
568| 然 也 在 v 的 链表 中 。 但 在 有 向 图 中 这 种 对 称 性 是 不 存在 的 。 这 个 区 别 在 有 向 图 的 处 理 中 影响 深远 。 





Digraph 数据 类 型 





public class Digraph 

{ 
private final int V; 
private int E; 
private Bag<Integer>[] adj; 


public DigraphCint V) 
{ 


thissV = V; 

this.E = 0; 

adj = (Bag<Integer>[]) new Bag[V]; 
for (Cint v Qi;v < Vy; v++) 


adj[v] = new Bag<Integer>(); 


} 
public int VO { return V; } 
public int EQ { return E; } 
public void addEdgeCint v, int w) 
{ 

adj[v] .add(w) ; 


Ert; 
} 
public Tterable<Integer> adjCint v) 
{ return adj[v]; } 
public Digraph reverse() 
Digraph R ~ new Digraph(V); 
for (int v = 0; v < Vi v++) 
for (int w : adj(v)) 
R.addEdge(w, v); 
return R; 


攻 
Digraph 数据 类 型 与 Graph 数据 类 型 ( 请 见 4.1.2.2 框 注 
“Graph 数据 类 型 ” ) 基本 相同 ， 区 别 是 addEdge() 只 调用 了 一 
次 add()， 而 且 它 还 有 一 个 reverse() 方法 来 返回 图 的 反 向 图 。 
因为 两 者 的 代码 非常 相似 ， 所 以 省 略 了 toStringQ 方法 (请 见 
569| 表 4.1.2) 和 从 输入 流 中 读 取 图 的 构造 函数 。 
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4.2.3 ”有 向 图 中 的 可 达 性 

在 无 向 图 中 介绍 的 第 一 个 算法 就 是 4.1.3.2 节 中 的 DepthFirstSearch， 它 解决 了 单 点 连通 性 的 
问题 ， 使 得 用 例 可 以 判定 其 他 项 点 和 给 定 的 起 点 是 否 连通 。 使 用 完全 相同 的 代码 ， 将 其 中 的 Graph 、 
替换 为 Digraph， 也 可 以 解决 一 个 有 向 图 中 的 类 似 问题 。 

单 点 可 达 性 给 定 一 幅 有 向 图 和 一 个 起 点 s， 回 答 “ 是 否 存在 一 条 从 s 到 达 给 定 顶点 v 的 有 向 路 
径 ? ”等 类 似 问题 。 

算法 4.4 中 的 DirectedDFS 类 将 DepthFirstSearch 稍 加 润色 并 实现 了 以 下 API。 


表 4.2.3 有 向 图 的 可 达 性 API 
public class DirectedDFS 





DirectedDFS(Digraph G, int s) 在 6 中 找到 从 s 可 达 的 所 有 硕 点 
DirectedDFS(Digraph G, 在 6 中 找到 从 sources 中 的 所 有 顶点 可 达 的 所 有 
Tterable<Integer> sources) 顶点 


boolean markedCint v) Vv 是 可 达 的 吗 


在 添加 了 一 个 接受 多 个 顶点 的 构造 函数 之 后 , 这 份 API 使 得 用 例 能 够 解决 一 个 更 加 一 般 的 问题 。 

多 点 可 达 性 给 定 一 幅 有 向 图 和 顶点 的 集合 ， 回 答 “是 否 存在 一 条 从 集合 中 的 任意 顶点 到 达 给 定 
顶点 Vv 的 有 向 路 径 7 ”等 类 似 问题 。 -= 

我 们 在 5.4 节 中 解决 经 典 的 字符 串 处 理 问题 时 会 再 次 遇 到 这 个 问题 。 

DirectedDFS 使 用 了 解决 图 处 理 的 标准 范例 和 标准 的 深度 优先 搜索 来 解决 这 些 问题 。 它 对 每 个 
起 点 调用 递归 方法 dfs() ， 以 标记 过 到 的 任意 顶点 。 


命题 D。 在 有 向 图 中 ， 深 度 优先 搜索 标记 由 一 pepe 
记 的 所 有 顶点 的 出 度 之 和 成 正比 。 
证 明 。 同 4.1.3.2 节 的 命题 A。 
图 4.2.3 显示 了 这 个 算法 在 处 理 有 向 样 图 时 的 操作 轨迹 。 这 份 轨迹 比 相应 的 无 向 图 算法 的 轨 [570 


迹 稍稍 简单 些 ， 因 为 深度 优先 搜索 本 质 上 是 一 种 适用 于 处 理 有 向 图 的 算法 ， 每 条 边 都 只 会 被 表示 
一 次 。 研 究 这 些 轨迹 有 助 于 巩固 你 对 有 向 图 中 深度 优先 搜索 的 理解 。 


算法 4.4 有 向 图 的 可 达 性 


public class DirectedDFS 
{ 








private boolean[] marked; 


public DirectedDFS(Digraph G, int s) 
二 
marked = new boolean[G.VO]; 
dfs(G, s); 
. 


public DirectedDFS(Digraph G, Iterable<Integer> sources) 
{ 
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571 








marked = new boolean[G-VO]; 
for Cint-s ; sources) 
if (Imarked[s]) dfs(G, s); 


} 


private void dfs(Digraph G, int v) % java DirectedDFS tinyDG.txt 1 


PP 


marked[v] = true; 
for (int w : G.adj(v)) java DirectedDFS tinyDG.txt 2 
if (lmarked[w]) dfs(G, ws; 党 


} 


public boolean markedCint v) 
{ “return marked[v]; } 


多 
0 
% java DirectedDFS tinyDG.txt 1 2 6 
01234569101112 


public static void main(String[] args) 
A 3 Ep 
Digraph 6 = new Digraph(new In(args[0])); 
Bag<Integer> sources = new Bag<Integer>0); 
5 for Cinti = 1; i < args.length; i++) 
sources.add(Integer.parseInt(args[i])); 


DirectedDFS reachable = new DirectedDFS(G, sources); 


for (int v = 0; v < G.VO; v++) 
if (reachable.marked(v)) StdOut.print(y + " *); 
Stdout .printinG); 
和 
> 


这 份 深度 优先 搜索 的 实现 使 得 用 例 能 够 判断 从 给 定 的 一 个 或 者 一 组 顶点 能 到 达 哪些 其 他 顶点 。 





4.2.3.1 标记 一 清除 的 垃圾 收集 

多 点 可 达 性 的 一 个 重要 的 实际 应 用 是 在 典型 的 内 存 管理 系统 中 ,包括 许多 Java 的 实现 。 在 一 
幅 有 向 图 中 ， 一 个 顶点 表示 一 个 对 象 ， 一 条 边 则 表示 一 个 对 象 对 另 一 个 对 象 的 引用 。 这 个 模型 很 好 
地 表现 了 运行 中 的 Java 程序 的 内 存 使 用 状况 。 在 程序 执行 的 任何 时 候 都 有 某 些 对 象 是 可 以 被 直接 
访问 的 ， 而 不 能 通过 这 些 对 象 访问 到 的 所 有 对 象 都 应 该 被 回收 以 便 释放 内 存 ( 请 见 图 4.2.4 ) 。 标 
记 一 清除 的 垃圾 回收 策略 会 为 每 个 对 象 保留 一 个 位 做 垃圾 收集 之 用 。 它 会 周期 性 地 运行 一 个 类 似 于 
DirectedDFS 的 有 向 图 可 达 性 算法 来 标记 所 有 可 以 被 访问 到 的 对 象 ， 然 后 清理 所 有 对 象 ， 回 收 没有 
被 标记 的 对 象 ， 以 腾 出 内 存 供 新 的 对 象 使 用 。 
4.2.3.2 ”有 向 图 的 寻 路 

DepthFirstPaths (4.1.4.1 节 算 法 4.1) 和 BreadthFirstPaths (4.1.5 节 算法 4.2) 也 都 是 有 
向 图 处 理 中 的 重要 算法 。 和 刚才 一 样 ， 同 样 的 API 和 代码 ( 仅 将 Graph 替换 为 Digraph ) 也 能 够 
高 效 地 解决 以 下 问题 。 

单 点 有 向 路 径 给 定 一 幅 有 向 图 和 一 个 起 点 s, -回答 “从 s 到 给 定 目的 顶点 v 是 否 存在 一 条 有 向 


路径?. 如 果 有 ， 找 出 这 条 路 径 。” 等 类 似 问题 。 


单 点 最 短 有 向 路 径 给 定 一 幅 有 向 图 和 一 个 起 点 s， 回答“ 从 s 到 给 定 目的 顶点 v 是 否 存在 一 条 
有 向 路 径 ? 如 果 有 ， 找 出 其 中 最 短 的 那 条 所 含 边 数 最 少 ) 。” 等 类 似 问题 。 
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图 4.2.3 使 用 深度 优先 搜索 在 一 幅 有 向 图 中 寻找 能 够 从 顶点 0 到 达 的 所 有 项 点 的 轨迹 
在 本 书 的 网 站 上 以 及 本 节 最 后 的 练习 中 , -我 们 将 以 上 问题 的 答案 分 别 命名 为 DepthFirst- [5 
DirectedPaths 和 BreadthFirstDirectedPaths. 573| 
4.2.4 . 环 和 有 向 无 环 图 


-在 和 有 向 图 相关 的 实际 应 用 中 ， 有 向 环 特别 的 重要 。 没 有 计算 机 的 帮助 ， 在 一 幅 普通 的 有 向 图 
中 找 出 有 向 环 可 能 会 很 困难 。 从 原则 上 来 说 ， 一 幅 有 向 图 可 能 含有 大 量 的 环 ; 在 实际 应 用 中 ,我们 
一 般 只 会 重点 关注 其 中 一 小 部 分 ， 或 者 只 想 知道 它们 是 否 存 在 ( 请 见 图 4.2.5 ) < 
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图 4.2.4 垃圾 回收 示意 图 图 42.5 这 幅 有 向 图 含有 有 向 环 吗 


为 了 在 有 向 图 处 理 中 研究 有 向 环 的 作用 更 加 有 趣 , 我 们 来 看 看 下 面 这 个 有 向 图 模型 的 原型 应 用 。 
4.2.4.1 调度 问题 

一 种 应 用 广泛 的 模型 是 给 定 一 组 任务 并 安排 它们 的 执行 顺序 ， 限 制 条件 是 这 些 任务 的 执行 方法 
和 起 始 时 间 。 限 制 条 件 还 可 能 包括 任务 的 时 耗 以 及 消耗 的 其 他 资源 。 最 重要 的 一 种 限制 条 件 叫做 优 
先 级 限制 ， 它 指明 了 哪些 任务 必须 在 哪些 任务 之 前 完成 。 不 同类 型 的 限制 条 件 会 产生 不 同类 型 不 同 
难度 的 调度 问题 。 研 究 者 已 经 解决 了 上 千 种 不 同 的 此 类 问题 ,而 且 还 在 为 其 中 许多 寻找 更 好 的 算法 。 
以 一 个 正在 安排 课程 的 大 学 生 为 例 ， 有 些 课程 是 其 他 课程 的 先导 课程 ， 如 图 4.2.6 所 示 。 
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图 4.2.6 ”有 优先 级 限制 的 调度 问题 
如 果 再 假设 该 学 生 一 次 只 能 修一 门 课 。 实际 上 就 遇 到 了 下 面 这 个 问题 。 
优先 级 限制 下 的 调度 问题 。 给 定 一 组 需要 完成 的 任务 ， 以 及 一 组 关于 任务 完成 的 先后 次 序 的 优 
先 级 限制 。 在 满足 限制 条 件 的 前 提 下 应 该 如 何 安排 并 完成 所 有 任务 ? 
对 于 任意 一 个 这 样 的 问题 ， 我 们 都 可 以 马上 画 出 一 张 有 向 图 ， 其 中 顶点 对 应 任务 ， 有 向 边 对 应 
优先 级 顺序 .为 了 简化 问题 ,我 们 以 使 用 整数 为 顶点 编号 的 标准 模型 来 表示 这 个 示例 ,如 图 4.2.7 所 示 。 
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@) 在 有 向 图 中 , 优先 级 限制 下 的 调度 问题 等 价 于 下 面 这 个 基本 的 问题 。 


全 Gaaeae 拓扑 排序 。 给 定 一 幅 有 向 图 ， 将 所 有 的 顶点 排序 ， 使 得 所 有 的 
有 向 边 均 从 排 在 前 面 的 元 素 指向 排 在 后 面 的 元 素 (或 者 说 明 无 法 做 
2 到 这 一 点 ) 。 
© 
人 一 四 


图 4.2.8 为 示例 的 拓扑 排序 。 所 有 的 边 都 是 向 下 的 ， 所 以 它 清晰 
地 表示 了 这 幅 有 向 图 模型 所 代表 的 有 优先 级 限制 的 调度 问题 的 一 个 
解决 方法 : 按照 这 个 顺序 ， 该 同学 可 以 在 满足 先导 课程 限制 的 条 件 


“7 村 站 有 向 图 异型。 下 修 完 所 有 课程 。 这 个 应 用 是 很 和 型 的 一 表 424 列举 了 其 他 一 此 








有 代表 性 的 应 用 。 
表 4.2.4 “拓扑 排序 的 典型 应 用 pe 人 

应 用 页 襄 边 | 

任务 调度 任务 优先 级 限制 Galculus 

课程 安排 课程 先导 课程 限制 四) a 

继承 Java 类 extends 关系 四 SA 

电子 表格 单元 格 (cel) 公式 

符号 链接 文件 名 链接 Q Advanced Programming 
4.2.4.2 有 向 图 中 的 环 os 

如 果 任 务 x 必须 在 任务 y 之 前 完成 ， 而 任务 y 必须 (6) Theoretical CS 
在 任务 z 之 前 完成 , 但 任务 z 又 必须 在 任务 x 之 前 完成， 
那 肯定 是 有 人 搞 错 了 ， 因 为 这 三 个 限制 条 件 是 不 可 能 被 pf» ee eee 
同时 满足 的 。 一 般 来 说 ， 如 果 一 个 有 优先 级 限制 的 问题 @ Robotics 
中 存在 有 向 环 ， 那 么 这 个 问题 肯定 是 无 解 的 。 要 检查 这 wn yr 
种 错误 ， 需 要 解决 下 面 这 个 问题 。 

有 向 环 检测 。 给 定 的 有 向 图 中 包含 有 向 环 吗 ? 如 果 四 Neural Networks 
有 ， 按 照 路 径 的 方向 从 某 个 顶点 并 返回 自己 来 找到 环 上 © Se 
的 所 有 顶点 。 

一 幅 有 向 图 中 含有 的 环 的 数量 可 能 是 图 的 大 小 的 指 © Scientific Computing 
数 级 别 ( 请 见 练习 4.2.11 ) ， 因 此 我 们 只 需要 找 出 一 个 环 四 a 
即 可 ， 而 不 是 所 有 环 。 在 任务 调度 和 其 他 许多 实际 问题 
中 不 允许 出 现 有 向 环 ， 因 此 不 含有 环 的 有 向 图 就 变 得 很 图 42.8 拓扑 排序 





和 
元 环 图 (DAC) 训 是 一 术 不 全 有 环 的 有 和 图 。 


因此 ,解决 有 向 图 检测 的 问题 可 以 回答 下 面 这 个 问题 : 一 幅 有 向 图 是 有 向 无 环 图 吗 ? 基于 深度 
优先 搜索 来 解决 这 个 问题 并 不 困难 ， 因 为 由 系统 维护 的 递归 调用 的 栈 表示 的 正 是 “当前 ”正在 遍历 
的 有 向 路 径 ( 就 好 像 用 Tremaux 方法 探索 迷宫 时 的 那 条 绳子 一 样 ) 。 一 旦 我 们 找到 了 一 条 边 vw 
且 w 已 经 存在 于 栈 中 ”就 找到 了 一 个 环 ， 因 为 栈 表示 的 是 一 条 由 w 到 v 的 有 向 路 径 ， 而 vw 正好 
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补 全 了 这 个 环 。 同 时 ， 如 果 没有 找到 这 样 的 边 ， 那 就 意味 着 这 幅 有 向 图 是 无 环 的 ， 见 图 4.2.9。 请 见 


表 4.2:5. 有 向 环 的 API 
DirectedCycle 


public class 


后 面 框 注 “ 寻 找 有 向 环 ” 中 的 DirectedCycle 基于 这 个 思想 实现 了 表 4.2.5 中 的 API。 














DirectedCycle(Digraph G) 寻找 有 向 环 的 构造 函数 
boolean ”hasCycleO G 是 否 含 有 有 向 环 
Iterable<Integer> cycleO) 有 向 环 中 的 所 有 顶点 ( 如 果 存在 的 话 ) 
marked[] edgeTo[] onStack[] 
5 TIZIT 
dfs(0) 
dfs(5) 1 0 1 
dfs(4) ~ 5 1 
dfs(3) a 4 1 
检查 5 号 顶点 10.0 1 1 1 ---450 10011@ 
575 E 
576| 图 42.9 .在 一 幅 有 向 图 中 寻找 环 











寻找 有 向 环 





public class DirectedCycle 
{ 
private 
private 
private 
private 


boolean[l] .marked; 
int[f] edgeTo; 
Stack<Integer> cycle; 
boolean[] onStack; 


public -DirectedCycle (Digraph 0) 
{ 


// 有 向 环 申 的 所 有 项 


onStack = new boolean[G:VO]; 
edgeTo .= new int[G.VO]; 
marked . = new booleantG.V(O)]; 
for Cint v 0O;v <G.VO 
if (Imarked[v]) dfs(G 


vs 
} 
priyate void dfs(Digraph 6， 
{ 
onStack[v] = true; 
marked[v]-= true; 
for Cint w': G.adj(v)) 
if (this.hasCycle(O)) return; 
else if (imarked[w]) 
{ edgeTo[w] = v; dfs(G 
else if (onStack[w]) 


{ 


int v). 


w; } 


cycle = new Stack<Integer>O); 
for (int x = Vv; x != Ww; x = edgeTo[x]) 


cycle.push(x); 


cycle.push(w); 
cycle.push(v); 


‘onStack[v] = false; 


点 (如果 存在 ) 


//- 冲 归 调用 的 酰 上 的 所 有 顶点 





edoero0 
9. 
. 4 
: 9 
© 
有 向 环 检测 的 轨迹 
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public boolean hasCycleO 
{ return cycle != null; } 


public Iterable<Integer> cycle() 
{ return cycle; } 
了 于 
该 类 为 标准 的 递归 dfs() 方法 添加 了 一 个 布尔 类 型 的 数组 onStack[] 来 保存 递归 调用 期 间 栈 上 的 
所 有 顶点 。 当 它 找到 一 条 边 v 一 w 且 w 在 栈 中 时 ， 它 就 找到 了 一 个 有 向 环 。 环 上 的 所 有 顶点 可 以 通过 
edgeTo[] 中 的 链接 得 到 。 577 

















在 执行 dfs(G,v) 时 ， 查 找 的 是 一 条 由 起 点 到 v 的 有 向 路 径 。 要 保存 这 条 路 径 , Direc- 
tedCycle 维护 了 一 个 由 顶点 索引 的 数组 onStack[] ， 以 标记 递归 调用 的 栈 上 的 所 有 顶点 ( 在 调用 
dfs(G,v) 时 将 onStack[v] 设 为 true， 在 调用 结束 时 将 其 设 为 false ) 。DirectedCycle 同时 也 
使 用 了 一 个 edgeTo[] 数组 ， 在 找到 有 向 环 时 返回 环 中 的 所 有 顶点 ,方法 和 DepthFirstPaths (请 
见 算法 4.1 ) 以 及 BreadthFirstPaths ( 请 见 算法 4.2) 相同 。 
4.2.4.3 ”顶点 的 深度 优先 次 序 与 拓扑 排序 

优先 级 限制 下 的 调度 问题 等 价 于 计算 有 向 无 环 图 中 的 所 有 顶点 的 拓扑 排序 ， 因 此 有 表 4.2.6 所 
示 的 API。 


表 4.2.6 ”拓扑 排序 的 API 
public class Topological 





Topological (Digraph G) 拓扑 排序 的 构造 函数 
boolean isDAGO 6G 是 有 向 无 环 图 吗 
Iterable<Integer> order() 拓扑 有 序 的 所 有 顶点 


命题 E。 当 上 且 仅 当 一 幅 有 向 图 是 无 环 图 时 它 才 能 进行 拓扑 排序 。 


证 明 。 如 果 一 幅 有 向 图 含有 一 个 环 ， 它 就 不 可 能 是 拓扑 有 序 的 。 与 此 相反 ， 我 们 将 要 学 习 的 算 
法 能 够 计算 任意 有 向 无 环 图 的 拓扑 顺序 。 


值得 注意 的 是 ， 实 际 上 我 们 已 经 见 过 一 种 拓扑 排序 的 算法 : 只 要 添加 一 行 代 码 ， 标 准 深度 优先 
搜索 程序 就 能 完成 这 项 任务 ! 要 做 到 这 一 点 ,我 们 先 来 看 看 后 面 框 注 “ 有 向 图 中 基于 深度 优先 搜索 
的 顶点 排序 ”的 DepthFirstOrder 类 。 它 的 基本 思想 是 深度 优先 搜索 正好 只 会 访问 每 个 顶点 一 次 。 
如 果 将 dfs() 的 参数 顶点 保存 在 一 个 数据 结构 中 ,遍历 这 个 数据 结构 实际 上 就 能 访问 图 中 的 所 有 项 
点 ,遍历 的 顺序 取决 于 这 个 数据 结构 的 性 质 以 及 是 在 递归 调用 之 前 还 是 之 后 进行 保存 。 在 典型 的 应 
用 中 ， 人 们 感 兴趣 的 是 顶点 的 以 下 3 种 排列 顺序 。 

口 前 序 : 在 递归 调用 之 前 将 顶点 加 入 队列 

口 后 序 : 在 递归 调用 之 后 将 顶点 加 入 队列 。 

口 道 后 序 : 在 递归 调用 之 后 将 顶点 压 人 栈 。 

图 4.2.10 所 示 的 是 用 DepthFirstOrder 处 理 有 序 无 环 样 图 所 产生 的 轨迹 。 它 的 实现 简 
单 ， 支 持 在 图 的 高 级 处 理 算法 中 十 分 有 用 的 pre 〇 O 、postCO) 和 reversePost() 方法 。 例 如 ， 
Topological 类 中 的 order 0) 方法 就 调用 了 reversePost() 方法 。 ED 
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前 序 就 是 dfs() 后 序 就 是 顶点 人 
的 调用 顺序 历 完成 的 顺序 
pre poest reversepost 
J 站 
s(5) 名 
2 人 队列 队列 模 
4 完成 办 / 
完成 45 4 
dfs(1) 0541 
完 二 ` 委 35 4 
dfs(6) 05416 
dfs(9) 054169 
dfs(11) 05416911 
dfs(12) 0541691112 
12 完成 45112 12154 
11 完成 4511211 1112154 
dfs(10) 054169111210 
10 完成 45112110 101112154 
检查 12 
9 完成 4511211109 9101112154 
检查 4 
6 完成 45112111096 69101112154 
0 完成 451121110960 069101112154 
检查 1 
dfs(2) 0541691112 102 
检查 0 
dfs(3) 05416911121023 
检查 5 
3 完成 4511211109603 3069101112154 
2 完成 
检查 3 45112111096032 23069101112154 
检查 4 
检查 5 
检查 6 
dfs(7) 054169111210237 
检查 6 k 
7 完成 451121110960327 723069101112154 
dfs(8) 0541691112102378 
站 检查 7 了 
8 完成 45112111096032788723069101112154 
检查 9 
0 | 
检查 12. 过 后 序 
图 4.2.10 计算 有 向 图 中 顶点 的 深度 优先 次 序 〈 前 序 、 后 序 和 逆 后 序 ) 
.有 向 图 中 基于 深度 优先 搜索 的 项 点 排序 E 和 





public class DepthFirstOrder 


private boolean[] marked; 

private Queue<Integer> pre; // 所有 项 点 的 前 序 排列 
private Queue<Integer> post; V//- 所 有 项 点 的 后 序 排列 
private Stack<Integer> reversePost; // 所 有 项 点 的 送 后 序 排列 
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public DepthFirstOrder(Digraph GC) 





pre = new Queue<Integer>O); 
post = new Queue<Integer>( 
reversepost = new Stack<Integer>O); 
marked = new boolean[G.VO]; 
for (int v QO;v<G.V + 小 ， 

if Cimarked[v]) dfs(G, v 


private void dfs(Digraph G&, int v 


pre.enqueue(v); 


markedEv] = true; 
for (int w 





post.enqueue(v); 
reversePost .push(v); 
} 


public Iterable<Integer> preO) 

{ return pre; } 

public Iterable<Integer> post() 

{ return post; } 

public Iterable<Integer> reversePost() 
{ return reversepost; } 


} 


该 类 允许 用 例 用 各 种 顺序 遍历 深度 优先 搜索 经 过 的 所 有 顶点 。 这 在 高 级 的 有 向 图 处 理 算法 中 非常 有 
用 ， 因 为 搜索 的 递归 性 使 得 我 们 能 够 证 明 这 段 计算 的 许多 性 质 ( 例如 命题 F) 。 580 

















命题 4.5 拓扑 排序 


public class Topological 





{ 
private Iterable<Integer> order; // 顶点 的 拓扑 顺序 
public Topological(Digraph G) 
于 
DirectedCycle cyclefinder = new DirectedCycle(G); 
if (lcyclefinder.hasCycleO)) 
{ 
DepthFirstOrder dfs = new DepthFirstOrder(G); 
order = dfs.reversePostO; 
本 
2 


public Iterable<Integer> orderO) 
{ return order; } 

public boolean isDAGO 

{ return order != nul1; } 
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public static void main(String[] args) 
{ 


String filename = args[0]; 
String separator = args[1]; 
SymbolDigraph sg = new SymbolDigraph(filename, separator); 
Topological top = new Topological(sg.6O); 
for (Cint v : top.orderO) 
StdOut.printin(sg.name(v)); 


$ 


这 段 代码 使 用 了 DepthFirstOrder 类 和 DirectedCycle 类 来 返回 一 幅 有 向 无 环 图 的 拓扑 排序 。 
其 中 的 测试 代码 解决 了 一 幅 Symbol1Digraph 中 有 优先 级 限制 的 调度 问题 。 在 给 定 的 有 向 图 包含 环 时 ， 
order(0) 方法 会 返回 nu11， 和 否则 会 返回 一 个 能 够 给 出 拓扑 有 序 的 所 有 项 点 的 选 代 器 。 这 里 省 略 了 关于 
Symbo1Digraph 的 代码 ， 因 为 它 和 Symbo1Graph ( 请 见 表 4.1.1 ) 的 代码 几乎 完全 相同 ， 只 需 把 所 有 的 
Graph 替换 为 Digraph 即 可 。 





命题 F。 一 幅 有 向 无 环 图 的 拓扑 排序 即 为 所 有 顶点 的 逆 后 序 排列 。 


证 明 。 对 于 任意 边 v 一 w， 在 调用 dfs(v) 时 ， 下 面 三 种 情况 必 有 其 一 成 立 ( 请 见 图 4.2.11 ) 。 
口 dfs(w) 已 经 被 调用 过 且 已 经 返回 了 (w 已 经 被 标记 ) 。 
口 dfsGw) 还 没有 被 调用 (w 还 未 被 标记 ) ， 因 此 v 一 w 会 直接 或 间接 调用 并 返回 
dfs(w)， 且 dfs(w) 会 在 dfs(v) 返回 前 返回 。 
口 dfs(w) 已 经 被 调用 但 还 未 返回 。 证 明 的 关键 在 于 ， 在 有 向 无 环 图 中 这 种 情况 是 不 可 能 出 
现 的 ， 这 是 由 于 递归 调用 链 意 味 着 存在 从 w 到 v 的 路 径 ， 但 存在 v 一 w 则 表示 存在 一 个 环 。 
在 两 种 可 能 的 情况 中 ，dfsCw) 都 会 在 dfs(v) 之 前 完成 ， 因 此 在 后 序 排列 中 wW 排 在 v 之 前 而 
在 逆 后 序 中 Ww 排 在 v 之 后 。 因 此 任意 一 条 边 v 一 w 都 如 我 们 所 愿 地 从 排名 较 前 顶点 指向 排名 较 后 的 
顶点 。 


% more jobs.txt 

Algorithms/Theoretical CS/Databases/Scientific Computing 
Introduction to CS/Advanced Programming/Algorithms 

Advanced Programming/Scientific Computing 

Scientific Computing/Computational Biology 

Theoretical CS/Computational Biology/Artificial Intelligence 
Linear Algebra/Theoretical CS 

Calculus/Linear Algebra 


Artificial Intelligence/Neural Networks/Robotics/Machine Learning 
Machine Learning/Neural Networks 


% java Topological jobs.txt "/” 
Calculus 

Linear Algebra 

Introduction to CS 


Advanced Programming 
Algorithms 

Theoretical CS 
Artificial Intelligence 
Robotics 

Machine Learning 

Neural Networks 


Databases 
Scientific Computing 
Computational Biology 


Topological 类 ( 请 见 算法 4.5 ) 的 实现 使 
用 了 深度 优先 搜索 来 对 有 向 无 环 图 进行 拓扑 排 
序 。 图 4.2.11 为 排序 的 轨迹 。 


命题 G。 使 用 深度 优先 搜索 对 有 向 无 环 图 进 
行 拓扑 排序 所 需 的 时 间 和 V+E 成 正比 。 


证 明 。 由 代码 可 知 ， 第 一 多 深度 优先 搜索 保 
证 了 不 存在 有 向 环 ， 第 二 遍 深 度 优先 搜索 产 
生 了 顶点 的 逆 后 序 排序 。 两 次 搜索 都 访问 了 
所 有 的 顶点 和 所 有 的 边 ， 因 此 它 所 项 的 时 间 
和 V+E 成 正比 。 


尽管 算法 很 简单 ， 但 是 它 被 忽略 了 很 多 年 ， 
比 它 更 流行 的 是 一 种 使 用 队列 储存 顶点 的 更 加 直 
观 的 算法 。 (请 见 练习 4.2.30 ) 

在 实际 应 用 中 ， 拓 扑 排序 和 有 向 环 的 检测 总 
会 一 起 出 现 ， 因 为 有 向 环 的 检测 是 排序 的 前 提 。 
例如 ， 在 一 个 任务 调度 应 用 中 ， 无 论 计划 如 何 安 
排 ， 其 背后 的 有 向 图 中 包含 的 环 意味 着 存在 一 个 
必须 被 纠正 的 严重 错误 。 因 此 ， 解 决 任务 调度 类 
应 用 通常 需要 以 下 3 步 : 

口 指明 任务 和 优先 级 条 件 ; 


口 使 用 拓扑 排序 解决 调度 问题 。 


类 似 地 ， 调 度 方案 的 任何 变动 之 后 都 需要 再 次 检查 是 否 存 在 环 (使 用 DirectedCycle 类 ) ， 
然后 在 计算 新 的 调度 安排 (使 用 Topological 类 ) 。 


dfs(0) 
dfsC 


dfs(4) 


4 


5 完成 < 标记 的 相 邻 项 点 5 


dfs( 
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5) 


在 dfs(0) 完 成 之 前 ， 
处 理 顶 点 0 的 未 被 








完成 


TD 的 dfs(5) 就 已 经 完 


1 完成 成 ， 因 此 0 一 5 是 
dfs(6) 向 上 指 的 
dfs(9) 
dfs(11) 
dfs(12) 
12 完成 
11 完成 
dfs(10) 
10 完成 
检查 12 
9 完成 
检查 4 
6 完成 
0 完成 
检查 1 
dfsC2) 
检查 0 
dfs(3) 
检查 5 在 dfs(7) 完 成 之 前 ， 
| 3 完成 处 理 顶 点 7 的 已 被 标 
2 完成 记 的 相 邻 顶点 6 的 
检查 3 dfs(6) 就 已 经 完成 ， 
检查 4 因此 7 一 6 是 向 上 指 的 
检查 5 
检查 6 
dfs(7) 
| 检查 6 
7 完成 所 有 的 边 都 是 指向 《?7 
dfs(8) 上 的 ， 颠 倒 过 来 就 
六 在 7 是 一 次 拓扑 排序 由 
8 完成 ) 
检查 9 
检查 10 
逆 后 序 就 是 项 点 
4 开 遍历 完成 顺序 的 
逆 (从 下 往 上 ) 


图 4.2.11 有 向 无 环 图 的 逆 后 序 是 拓扑 排序 
口 不 断 检测 并 去 除 有 向 图 中 的 所 有 环 ， 以 确保 存在 可 行 方案 的 ; 
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4.2.5 ”有 向 图 中 的 强 连通 性 

在 前 文中 ,我 们 仔细 区 别 了 有 向 图 中 的 可 达 性 和 无 向 图 中 的 连通 性 。 在 一 幅 无 向 图 中 ， 如 果 有 
一 条 路 径 连接 顶点 v 和 w, 则 它们 就 是 连通 的 一 一 既 可 以 由 这 条 路 径 从 w 到 达 v, 也 可 以 从 v 到 达 w。 
相反 ， 在 一 幅 有 向 图 中 ， 如 果 从 顶点 v 有 一 条 有 向 路 径 到 达 w， 则 顶点 w 是 从 顶点 v 可 达 的 ， 但 从 
w 到 达 v 的 路 径 可 能 存在 也 可 能 不 存在 。 在 对 有 向 图 的 研究 中 ， 我 们 也 会 考虑 与 无 向 图 中 的 连通 性 
类 似 的 一 个 问题 。 


定义 。 如 果 两 个 顶点 v 和 Ww 是 互相 可 达 的 ， 则 称 它们 为 强 连通 的 。 也 就 是 说 ， 既 存在 一 条 从 V 
到 w 的 有 向 路 径 ， 也 存在 一 条 从 w 到 v 的 有 向 路 径 。 如 果 一 幅 有 向 图 中 的 任意 两 个 顶点 都 是 强 
连通 的 ， 则 称 这 幅 有 向 图 也 是 强 连通 的 。 


图 4.2.12 给 出 了 几 个 强 连 通 图 的 例子 。 从 这 些 例子 中 你 可 以 看 
到 ， 环 在 强 连通 性 的 理解 上 起 着 重要 的 作用 。 事 实 上 ， 回 忆 一 下 一 
条 普通 的 有 向 环 可 能 含有 重复 的 顶点 就 很 容易 知道 ， 两 个 顶点 是 强 和 
连通 的 当 且 仅 当 它们 都 在 一 个 普通 的 有 向 环 中 ( 证 明 : 画 出 从 v 到 
Ww 和 从 w 到 v 的 路 径 即 可 ) 。 
4.2.5.1 强 连通 分 量 3 

和 无 向 图 中 的 连通 性 一 样 ， 有 向 图 中 的 强 连通 性 也 是 一 种 顶点 
之 间 平 等 关系 ， 因 为 它 有 着 以 下 性 质 。 

口 自 反 性 : 任意 顶点 v 和 自己 都 是 强 连通 的 。 《ES 

口 对 称 性 ; 如 果 v 和 w 是 强 连通 的 , 那么 w 和 v 也 是 强 连通 的 。 

口 传递 性 ， 如 果 v 和 w 是 强 连通 的 且 w 和 x 也 是 强 连通 的 ， 屠 Qo 

么 v 和 x 也 是 强 连通 的 。 

作为 一 种 平等 关系 ， 强 连通 性 将 所 有 顶点 分 为 了 一 些 平等 的 部 
分 ， 每 个 部 分 都 是 由 相互 均 为 强 连 通 的 顶点 的 最 大 子 集 组 成 的 。 我 
们 将 这 些 子 集 称 为 强 连 通 分 量 ， 请 见 图 4.2.13。 样 图 tinyDG.txt 含 
有 5 个 强 连通 分 量 。 一 个 含有 上 个 顶点 的 有 向 图 含有 1 ~ VV 个 强 连 
通 分 量 个 强 连通 图 只 含有 一 个 强 连通 分 量 ， 而 一 个 有 向 无 环 
图 中 则 含有 个 强 连通 分 量 。 需 要 注意 的 是 强 连通 分 量 的 定义 是 基 
于 顶点 的 ， 而 非 边 。 有 些 边 连 接 的 两 个 顶点 都 在 同一 个 强 连通 分 量 中 ， 而 有 些 边 连接 的 两 个 顶点 则 
在 不 同 的 强 连 通 分 量 中 。 后 者 不 会 出 现在 任何 有 向 环 之 中 。 与 识别 连通 分 量 在 无 向 图 中 的 重要 性 一 
样 , 在 有 向 图 的 处 理 中 识别 强 连通 分 量 也 是 非常 重要 的 。 
4.2.5.2 ”应 用 举例 

在 理解 有 向 图 的 结构 时 ， 强 连通 性 是 一 种 非常 重要 
的 抽象 ， 它 突出 了 相互 关联 的 几 组 顶点 ( 强 连通 分 量 ) 。 
例如 ， 强 连通 分 量 能 够 帮助 教科 书 的 作者 决定 哪些 话题 
应 该 被 归 为 一 类 ， 或 帮助 程序 员 组 织 程序 的 模块 (请 见 
表 4.2.7) 。 图 4.2.14 是 一 个 生态 学 的 例子 。 这 幅 有 向 图 
描绘 的 是 各 种 生物 之 间 的 食物 链 模型 ， 其 中 顶点 表示 物 





图 4.2.12 强 连通 的 有 向 图 





种 ， 而 从 一 个 顶点 指向 另 一 个 顶点 的 一 条 边 则 表示 
指向 顶点 的 物种 对 指出 顶点 的 物种 的 捕食 关系 。 这 
些 有 向 图 ( 其 中 物种 和 捕食 关系 都 是 经 过 仔细 选择 
和 研究 的 ) 的 科学 研究 有 效 地 帮助 了 生态 学 家 解决 
生态 系统 中 的 一 些 基 本 问题 。 这 种 有 向 图 中 的 强 连 
通 分 量 能 够 帮助 生态 学 家 理解 食物 链 中 能 量 的 流动 。 
图 4.2.17 所 示 的 是 一 张 表示 网 络 内 容 的 有 向 图 ， 其 
中 顶点 表示 网 页 ， 而 边 表示 从 一 个 页 面 指向 另 一 个 
页 面 的 超 链接 。 在 这 样 一 幅 有 向 图 中 ， 强 连通 分 量 
能 够 帮助 网 络 工程 师 将 网 络 中 数量 庞大 的 网 页 分 为 


多 个 大 小 可 以 接受 的 部 分 分 别 进行 处 理 。 练 习 和 本 


书 的 网 站 会 涉及 这 些 应 用 和 其 他 例子 的 更 多 性 质 。 


表 4.2.7 强 连通 分 量 的 典型 应 用 
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图 4.2.14 一 幅 表 示 食 物 链 的 有 向 图 的 一 
分 


小 部 








应 - 顶 、 点 边 

网 络 5 网 页 超 链接 

教科 书 ， 话题 引用 
“软件 p - 模块 ”调用 S84 
食物 链 所 物种 捕食 关系 ct 








因此 ， 在 有 向 图 中 我 们 也 需要 表 4.2.8 所 列 的 这 份 和 CC ( 请 见 表 4.1.6 ) 类 似 的 API。 


表 4.2.8“ 强 连通 分 量 的 API 


public class_SCC 


一 ———— _ _ _ _ 





SCCCDigraph ©) 
boolean ”strong1yConnected(Cint v，int w) 
int countO 


int idCint v) 


预 处 理 构造 函数 
v 和 w 是 强 连 通 的 吗 
图 中 的 强 连 通 分 量 的 总 数 


v 所 在 的 强 连通 分 量 的 标识 符 ( 在 0 至 
count()-1 之 间 ) 


设计 一 种 平方 级 别 的 算法 来 计算 强 连通 分 量 ( 请 见 练习 4.2.23 ) 并 不 困难 ,但 (和 以 前 一 样 ) 
对 于 处 理 在 实际 应 用 中 经 常 遇 到 的 像 刚才 示例 所 示 的 大 型 有 向 图 来 说 ,平方 级 别 的 时 间 和 空间 需求 


是 不 可 接受 的 。 
4.2.5.3 Kosaraju 算法 


我 们 在 CC:( 请 见 算法 4.3 ) 中 看 到 过 ,计算 无 向 图 中 的 连通 分 量 只 是 深度 优先 搜索 的 一 
个 简单 应 用 。 那 么 在 有 向 图 中 应 该 如 何 高 效 地 计算 强 连通 分 量 呢 ? 令 人 惊讶 的 是 ， 算 法 4.6 中 
的 Kosarajucc 的 实现 只 为 CC 添加 了 几 行 代码 就 做 到 了 这 一 点 ， 它 将 会 完成 以 下 任务 ( 请 见 


图 4.2.15) 。 


口 在 给 定 的 一 幅 有 向 图 G 中 ,使 用 DepthFirstorder 来 计算 它 的 反 向 图 Ge 的 逆 后 序 排列 。 
口 在 G 中 进行 标准 的 深度 优先 搜索 ， 但 是 朗 按 照 刚 才 计算 得 到 的 顺序 而 非 标准 的 顺序 来 访问 


所 有 未 被 标记 的 顶点 。 ee 
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口 在 构造 函数 中 , 所 有 在 同一 个 递归 dfs 0) 调用 中 被 访问 到 的 顶点 都 在 同一 个 强 连通 分 量 中 ， 
将 它们 按照 和 CC 相同 的 方式 识别 出 来 。 

















在 G 中 进行 深度 优先 搜索 在 C" 中 进行 深度 优先 搜索 
(KosarajuSCC) (DepthFirstOrder) 
假设 v 对 于 s 是 可 
* gfs(s) 达 的 ， 那么 G6 中 人 
: 必定 含有 一 条 从 
fs 5 到 v 的 路 入 
Vv 完成 
s 完成 
不 可 能 ， 因 为 C* 中 含 
有 一 条 从 v 到 5 的 路 径 
586 图 4.2.15 Kosaraju 算法 的 正确 性 证 明 


算法 4.6 ”计算 强 连 通 分 量 的 Kosaraju 算法 





public class KosarajuSCC 

{ 
private boolean[] marked;  // 已 访问 过 的 顶点 
private int[] jd; // 强 连 通 分 量 的 标识 符 
private int count; // 强 连 通 分 量 的 数量 


public KosarajuSCC(Digraph ©) 
{ 
marked = new boolean[G.VO]:; 
id = new int[G.VO]i; 
DepthFirstOrder order = new DepthFirstOrder(G.reverse()); 
for (int s : order.reversePost()) 
if Cimarked[s]) 


pe aR % java KosarajusCC tinyDG. txt 
} 5 components 
private void dfs(Digraph G, int v) 5432 
12 9 10 


marked[v] = true; 
id[v] = count; 
for Cint w : G.adj(v)) 
if (tmarked[w]) 
dfs(G, w; 


1 
0 
{ 1 
6 
8 


} 


public boolean stronglyConnectedCint v, int w) 
{ return id[v] == id[w]; } 


public int idCint v) 
{ return id[v]; } 


public int countO 
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return count 


突出 显示 的 代码 是 这 份 实现 和 CC ( 请 见 算法 4.3 ) 仅 有 的 不 同 之 处 ( 还 需要 将 4.1.6.1 节 中 用 到 的 

main() 函数 中 的 Graph 蔡 换 为 Digraph，CC 蔡 换 为 KosarajuSCC ) 。 为 了 找到 所 有 强 连通 分 量 ， 它 会 

在 反 向 图 中 进行 深度 优先 搜索 来 将 顶点 排序 (搜索 顺序 的 逆 后 序 ) ， 在 给 定 有 向 图 中 用 这 个 顺序 再 进行 
-次 深度 优先 搜索 。 587 

















Kosaraju 算法 是 一 个 典型 示例 ， 这 个 方法 容易 实现 但 难以 理解 。 尽 管 它 有 些 神秘 ， 但 如 果 你 能 
一 步 一 步 地 理解 下 面 这 个 命题 的 证 明 并 参考 图 4.2.4， 那 你 一 定 可 以 理解 这 个 算法 的 正确 性 。 


命题 H。 使 用 深度 优先 搜索 查找 给 定 有 向 图 G 的 反 向 图 Gx， 根 据 由 此 得 到 的 所 有 顶点 的 逆 后 
序 再 次 用 深度 优先 搜索 处 理 有 向 图 G ( Kosaraju 算法 ) ， 其 构造 函数 中 的 每 一 次 递归 调用 所 标 
记 的 顶点 都 在 同一 个 强 连通 分 量 之 中 。 


证 明 。 首 先 要 用 反 证 法 证 明 “ 每 个 和 s 强 连通 的 顶点 v 都 会 在 构造 函数 调用 的 dfs(G,s) 中 
被 访问 到 ”。 假 设 有 一 个 和 s 强 连 通 的 顶点 v 不 会 在 构造 函数 调用 的 dfs(G,s) 中 被 访问 到 。 
因为 存在 从 s 到 v 的 路 径 ， 所 以 v 肯定 在 之 前 就 已 经 被 标记 过 了 。 但 是 ， 因 为 也 存在 从 v 到 
5 的 路 径 ,在 dfsCG,v) 调用 中 s 肯定 会 被 标记 ,因此 构造 函数 应 该 是 不 会 调用 dfs(G,s) 的 。 
矛盾 。 
其 次 ， 要 证 明 “ 构 造 函 数 调用 的 dfs(G,s) 所 到 达 的 任意 顶点 v 都 必然 是 和 S 强 连通 的 ”。 
设 v 为 dfs(G,s) 到 达 的 某 个 顶点 。 那 么 ，G 中 必然 存在 一 条 从 s 到 v 的 路 径 ， 因 此 只 需要 证 
明 G 中 还 存在 一 条 从 v 到 s 的 路 径 即 可 。 这 也 等 价 于 Ge 中 存在 一 条 从 s 到 v 的 路 径 ， 因 此 只 
需要 证 明 在 G* 中 存在 一 条 从 s 到 v 的 路 径 即 可 。 
证 明 的 核心 在 于 , 按照 后 逆序 进行 的 深度 优先 搜索 意味 着 , 在 G* 中 进行 的 深度 优先 搜索 中 ， 
dfs(G,v) 必然 在 dfs(G,s) 之 前 就 已 经 结束 了 ， 这样 dfs(G,v) 的 调用 就 只 会 出 现 两 种 
情况 : 

口 调用 在 dfs(G,s) 的 调用 之 前 (并且 也 在 dfs(G,s) 的 调用 之 前 结束 ) ; 

口 调用 在 dfs(G,s) 的 调用 之 后 ( 并 且 也 在 dfs(G,s) 的 结束 之 前 结束 ) 。 
第 一 种 情况 是 不 可 能 出 现 的 ， 因 为 在 G* 中 存在 一 条 从 v 到 s 的 路 径 ; 而 第 二 种 情况 则 说 明 G* 
中 存在 一 条 从 s 到 v 的 路 径 。 证 毕 。 


图 4.2.16 所 示 为 Kosaraju 算法 处 理 tinyDG.txt 时 的 轨迹 。 在 每 次 dfs() 调用 轨迹 的 右 侧 都 是 有 
向 图 的 一 部 分 ， 顶 点 按照 搜索 结束 的 顺序 排列 。 因 此 ， 从 下 往 上 来 看 左 侧 这 幅 有 向 图 的 反 向 图 得 到 
的 就 是 所 有 顶点 的 逆 后 序 ， 也 就 是 在 原始 的 有 向 图 中 进行 深度 优先 搜索 时 所 有 未 被 标记 的 顶点 被 检 
查 的 顺序 。 你 可 以 从 图 中 看 到 ， 在 第 二 遍 深 度 优先 搜索 中 ， 首 先 调用 的 是 dfs(1)( 标记 顶点 1) ， 
然后 调用 的 是 dfs(0) (标记 顶点 5、4、3 和 2 ) ,然后 检查 了 顶点 2、4、5 和 3， 再 调用 dfs C11) 
(标记 顶点 11、12、9 和 10 ) ,在 检查 了 9、12 和 10 之 后 调用 dfs(b) ( 标记 顶点 6) ， 最 后 调 
用 dfs(7) 标记 了 顶点 7 和 8。 S88) 
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在 反 向 图 中 进行 深度 优先 搜索 (ReversePost) .在 原始 的 有 向 图 中 进行 深度 优先 搜索 
从 (D1) 
按 以 下 顺序 检查 所 有 未 被 标记 的 顶点 
0123456789101112 
dfs(0) 
dfs(6) 
th 9 
Ifs(8) 
检查 7 C) 
完成 
6 完成 (©) 
dfs(2) 
dfs(4) 
dfs(11) 
dfs(9) 
dfs(12) 
检查 11 
dfs(10) 
检查 9 
10 完成 
12 完 ) 
检查 8 
检查 6 
9 完成 
11 完成 
检查 6 
dfs(5) 
dfs(3) 
检查 4 
检查 2 
3 完 ) 
检查 0 
5 完成 
4 完成 
检查 3 
2 完成 
完 
dfs(1) 
检查 0 
1 完成 
检查 2 
检查 3 t 
Fi 供 第 二 次 深度 
检查 6 优先 搜索 使 用 的 
检查 7 地 后 序 (从 下 往 上 ) 
检查 8 
检查 9 
检查 10 
检查 11 
检查 12 
EU 图 4.2.16 在 有 向 图 中 寻找 强 连 通 分 量 的 Kosaraju 算法 





图 4.2.17 中 所 示 的 是 一 个 更 大 的 示例 ， 也 是 Web 的 有 向 图 模型 的 一 个 非常 小 的 部 分 。 
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图 4.2.17 这 幅 有 向 图 中 含有 多 少 个 强 连 通 分 量 
我 们 在 第 1 章 已 经 介绍 过 kosaraju 算法 并 在 4.1 节 中 再 次 使 用 该 算法 解决 了 无 向 图 的 连通 性 问 
题 。Kosaraju 算法 也 解决 了 有 向 图 中 的 类 似 问 题 。 
强 连 通 性 。 给 定 一 幅 有 向 图 ， 回 答 “ 给 定 的 两 个 顶点 是 强 连 通 的 吗 ? 这 幅 有 向 图 中 含有 多 少 个 
” 强 连通 分 量 ? ”等 类 似 问 题 。 
我 们 能 否 用 和 无 向 图 相同 的 效率 解决 有 向 图 的 连通 性 问题 这 个 问题 已 经 被 研究 了 很 长 时 间 了 
(RETadan 在 20 世纪 70 年 代 未 解决 了 这 个 问题 ) 。 这 样 一 个 简单 的 解决 方法 实在 令 人 惊讶。 


Kosaraju 算法 的 预 外 理 所 需 的 时 间 和 空间 与 VE 成 正比 且 支 持 常数 时 间 的 有 向 图 强 连 
询 






理 有 向 图 的 反 向 图 并 进行 两 次 深度 优先 搜索 。 这 3 步 所 需 的 时 间 痢 与 VE 成 
富有 南田 所 项 的 空间 与 V+E 成 正比 。 
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4.2.5.4 ”再 谈 可 达 性 

根据 CC 类 我 们 可 以 知道 ， 在 无 向 图 中 如 
果 两 个 顶点 v 和 w 是 连通 的 ， 那么 就 既 存 在 一 
条 从 v 到 w 的 路 径 也 存在 一 条 从 w 到 v 的 路 径 。 
根据 KosarajuCC 类 可 知 ， 在 有 向 图 中 如 果 两 
个 顶点 v 和 w 是 强 连通 的 ,那么 也 既 存 在 一 条 
从 v 到 w 的 路 径 也 存在 ( 另 ) 一 条 从 w 到 v 的 
路 径 。 但 对 于 一 对 非 强 连 通 的 顶点 呢 ? 也 许 存 0123456789101112 











在 一 条 从 v 到 w 的 路 径 , 也许 存 在 一 条 从 w 到 ol TTTTT 

v 的 路 径 ， 也 许 两 条 都 不 存在 ， 但 两 条 不 可 能 了 人 

都 存在 。 3 | T T ， T TA 刀 中 的 边 (红色 ) 顶点 12 是 从 
顶点 对 的 可 达 性 。 给 定 一 幅 有 向 图 , 回答 。 4 |T T T T ，T 自 环 (灰色 ) 顶点 6 柯达 的 

是否 存在 一 条 从 一 个 给 定 的 顶点 V 到 另 -个 5|TTTTTT | 

给 定 的 顶点 wW 的 路 径 ? ”等 类 似 问题 。 . ey 人 
对 于 无 向 图 ,这 个 问题 等 价 于 连通 性 问题 slrTTrrrrrrr Oe 

对 于 有 向 图 , 它 和 强 连通 性 的 问题 有 很 大 区 别 。 和 各 管 第 

cc 实现 需要 线性 级 别 的 预 处 理 时间 才 能 支持 llTr TTTTT Tk 

常数 时 间 的 查询 操作 。 我 们 能 够 在 有 向 图 的 相 。 3 汪 本 

应 实现 中 达到 这 样 的 性 能 吗 ? 这 个 看 似 简单 的 

问题 困扰 了 专家 数 十 年 。 为 了 更 好 地 理解 这 个 图 42.18 ”传递 闲 包 ( 另 见 彩 插 ) 

问题 ， 我 们 来 看 看 图 4.2.18。 它 展示 了 下 面 这 

个 基本 的 概念 。 


定义 。 有 向 图 G 的 传递 闭 包 是 由 相同 的 一 组 顶点 组 成 的 另 一 幅 有 向 图 ， 在 传递 闭 包 中 存在 一 条 
从 v 指向 w 的 边 当 且 仅 当 在 G 中 Ww 是 从 V 可 达 的 。 


根据 约定 ,每 个 顶点 对 于 自己 都 是 可 达 的 , 因此 传递 闭 包 会 含有 VV 个 自 环 。 样 图 只 有 13 条 边 ， 
但 它 的 传递 闭 包含 有 可 能 的 169 条 边 中 的 102 条 。 一 般 来 说 ,一 幅 有 向 图 的 传递 闭 包 中 所 含 的 边 都 
比 原 图 中 多 得 多 ，-- 幅 稀 朴 图 的 传递 闭 包 却 是 一 幅 稠 密 图 也 是 很 常见 的 。 例 如 ， 含 有 5 个 顶点 入 
条 边 的 有 向 环 的 传递 闭 包 是 一 幅 含 有 广 条 边 的 有 向 完全 图 。 因 为 传递 闭 包 一 般 都 很 稠密 ， 我 们 通 
常 都 将 它们 表示 为 一 个 布尔 值 矩阵 、 其 中 v 行 w 列 的 值 为 true 当 且 仅 当 w 是 从 v 可 达 的 。 与 其 明 
确 计算 一 幅 有 向 图 的 传递 团 包 ， 不 如 使 用 深度 优先 搜索 来 实现 表 4.2.9 中 的 API。 


表 4.2.9 顶点 对 可 达 性 的 API 


一 一 一 一 一 -一 一 


public class TransitiveClosure 
TransitiveClosure(Digraph G) 预 处 理 的 构造 函数 
boolean reachableCint v, int w) W 是 从 v 可 达 的 吗 





下 页 框 注 中 的 代码 使 用 DirectedDFS ( 请 见 算法 44) 简单 明了 地 实现 了 它 。 无 论 对 于 稀 朴 
还 是 稠密 的 图 ， 它 都 是 理想 解决 方案 ， 但 它 不 适用 于 在 实际 应 用 中 可 能 遇 到 的 大 型 有 向 图 ， 因 为 
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构造 函 教 所 需 的 空间 和 到 成 正比 ， 


人 class TransitiveClosure 所 需 的 时 间 和 内 且 成 正比 共 
private DirectedDFS[] all; 有 VV 个 DirectedDFS 对 象 ， 每 个 所 
yy 9 需 的 空间 都 与 六 成 正比 ( 它们 都 合 

a py Di 有 有 大 小 为 V 的 marked[] 数组 并 会 检 

‘or ntv=0;v<G. V++) 可 ~ 

al1[v] = new DirectedDFS(G, v); 查 E 条 边 来 计算 标记 ) 。 本 质 上 ， 

TransitiveClosure 通过 计算 G 的 传 

boolean reachable(int v, int w) 递 闭 包 来 支持 常数 时 间 的 查询 一 一 传 

{ return all[v].marked(w); } 递 闭 包 矩阵 中 的 第 v 行 就 是 Transi- 

} tiveClosure 类 中 的 DirectedDFS[] 
顶点 对 的 可 达 性 数组 的 第 v 个 元 素 的 marked[] 数组 。 

我 们 能 够 大 幅度 减少 预 处 理 所 需 的 时 


间 和 空间 同时 又 保证 常数 时 间 的 查询 吗 ? 用 远 小 于 平方 级 别 的 空间 支持 常数 级 别 的 查询 的 一 般 解决 
方案 仍然 是 一 个 有 待 解决 的 研究 问题 ， 并 且 有 重要 的 实际 意义 ， 例如， 除非 这 个 问题 得 到 解决 ， Es 
于 像 代表 互联 网 这 样 的 巨型 有 向 图 ，. 否 则 无 法 有 效 解决 其 中 的 顶点 对 可 达 性 问题 。 


4.2.6 总 结 
在 本 节 中 ， 我 们 介绍 了 有 向 边 和 有 向 图 并 强调 了 有 向 图 处 理 算法 和 无 向 图 处 理 中 相应 算法 的 关 
系 ， 涵盖 了 以 下 几 个 方面 : 
口 有 向 图 的 术语 # 
口 有 向 图 的 表示 和 算法 在 本 质 上 和 无 向 图 是 相同 的 ， 但 部 分 有 向 图 问题 更 加 复杂 ; 
口 有 向 环 、 有 向 无 环 图 、 拓 扑 排序 和 优先 级 限制 下 的 调度 问题 ， 
口 有 向 图 的 可 达 性 、 路 径 和 强 连通 性 。 

- 表 4.2.10 总 结 了 我 们 已 经 学 过 的 各 种 有 向 图 算法 的 实现 ( 只 有 一 个 算法 不 基于 深度 优先 搜索 % 
这 些 问题 的 描述 都 很 简单 ， 但 它们 的 解决 方法 有 的 仅仅 简单 改造 了 无 环 图 中 的 相应 问题 的 处 理 算 
法 ， 有 的 却 非常 巧妙 。 我 们 将 在 4.4 节 中 过 到 加 权 有 向 图 ， 这 些 算法 将 是 学 习 更 加 复杂 的 算法 的 
基础 。 


表 4.2.10 “本 节 中 得 到 解决 的 有 向 图 处 理 问题 





间 题 解决 方法 参 阅 
单 点 和 多 点 的 可 达 性 DirectedDFS 算法 44 
单 点 有 向 路 径 DepthFirstDirectedPaths 4.2.3.2 
” 单 点 最 短 有 向 路 径 -BreadrhFirstDirectedPaths < 4232 
有 向 环 检测 DirectedCycle : 42.42 框 注 “ 查 找 有 向 环 ” 
深度 优先 的 顶点 排序 DepthFirstOrder WN 
优先 级 限制 下 的 调度 问题 Topological 算法 4.5 
拓扑 排序 一 Topological 算法 45 
强 连 通 性 KosarajuSCC 算法 46 


顶点 对 的 可 达 性 TransitiveClosure- -42.5.4 节 
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国 答 丝 


“ 间 ，” 自 环 是 一 个 环 吗 ? 
3595| 答 是 的 ， 外 没有 自 环 的 大 点 对 于 自己 也 是 可 达 的 














图 练习 


4.2.1 


4.2.2 


“4.2.3 


一 幅 含有 7 个 顶点 且 没 有 平行 边 的 有 向 图 中 最 多 可 能 含有 多 少 条 边 ? 一 幅 含 有 7 个 顶点 且 没有 孤 


立项 点 的 有 向 图 中 最 少 需要 多 少 条 边 ? 

按照 正文 中 示意 图 的 样式 ( 请 见 图 4.1.10 ) 画 出 Digraph 
的 构造 函数 在 处 理 图 4.2.19 的 tinyDGex2.txt 时 构造 的 邻 
接 表 。 


为 Digraph 添加 一 个 构造 函数 ， 它 接受 一 幅 有 向 图 6 然后 


-创建 并 初始 化 这 幅 图 的 一 个 副本 。5 的 用 例 的 对 它 作 出 的 


4.2.4 


任何 改动 都 不 应 该 影响 到 它 的 副本 。 
为 Digraph 添加 一 个 方法 hasEdge()， 它 接受 两 个 整 型 参 


. 数 v 和 w。 如 果 图 含有 边 v 一 w， 方 法 返回 true， 否则 返 


4.2.5 
426 
27 
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回 false。 

修改 Digraph、 不 允许 存在 平行 边 和 自 环 。 
为 Digraph 编写 一 个 测试 用 例 。 
顶点 的 入 度 为 指向 该 顶点 的 边 的 总 数 。 顶 点 的 出 度 为 由 该 
顶点 指出 的 边 的 总 数 。 从 出 度 为 0 的 顶点 是 不 可 能 达到 任 
何 顶 点 的 ， 这 种 顶点 叫做 终点 ; 入 度 为 0 的 顶点 是 不 可 能 
从 任何 顶点 到 达 的 ， 
射 ( 从 0 到 矿 1 之 间 的 整数 到 它们 自身 的 函数 ) 。 
如 表 4.2.11 所 示 。 


表 4.2.11 


public class Degrees 


tinyDGex2. txt 
Wg 
12 
162—E 





图 4.2.19 


所 以 叫做 起 点 。 一 幅 允 许 出 现 自 环 且 每 个 顶点 的 出 度 均 为 1 的 有 向 图 叫做 映 
编写 一 段 程序 Degreesjava， 实 现下 面 的 API， 





Degrees(Digraph G) 
int indegreeCint v) 
int outdegree(int v) 
Iterable<Integer> sources() 
Iterable<Integer>. sinks©O) 
boolean “isMap() 之 


构造 丙 数 
-一 v 的 人 度 
v 的 出 度 
所 有 起 点 的 集合 
所 有 终点 的 集合 
G 是 一 幅 映 射 吗 


一 4.2:8 画 出 所 有 含有 .2、3、4. 和 5 个 顶点 的 非 同 构 有 向 无 环 图 。 ( 参考 练习 4.1.28 ) 
4.2.9 “编写 一 个 方法 检查 一 幅 有 向 无 环 图 的 顶点 的 给 定 排列 是 否 就 是 该 图 顶点 的 拓扑 排序 。 
4.2.10“ 给 定 一 幅 有 向 无 环 图 ， 是 否 存在 一 a i ed 项 


点 的 相 邻 关系 不 限 。 证 明 你 的 结论 : 





4.2.11 
42.12 
4.2.13 


~ 42.14 
4.2.15 
4.2.16 
4.2.17 
4.2.18 


4.2 有 向 图 < 387 


描述 一 组 稀 政 有 向 图 ， 其 含有 的 有 向 环 的 个 数 随 着 顶点 增加 而 呈 指 数 级 增长 。 

一 幅 仿 有 V 个 顶点 和 广 1 条 边 且 为 一 条 简单 路 径 的 有 向 图 的 传递 闭 包 中 含有 多 少 条 边 ? 

给 出 这 幅 含 有 10 个 顶点 和 以 下 边 的 有 向 图 的 传递 闭 包 : 

3 一 7 1 一 4 7 一 8 0 一 55 一 2 3 一 8 2 一 9 0 一 6 4 一 9 2 一 6 6 一 4 

证 明 G 和 G" 中 的 强 连 通 分 量 是 相同 的 。 

一 幅 有 向 无 环 图 的 强 连通 分 量 是 哪些 ? 

用 Kosaraju 算法 处 理 一 幅 有 向 无 环 图 的 结果 是 什么 ? 

真 假 判 断 : 一 幅 有 向 图 的 反 向 图 的 顶点 的 后 逆序 排列 和 该 有 向 图 的 顶点 的 后 序 排列 相同 。 
使 用 1.4 节 中 的 内 存 使 用 模型 评估 含有 WV 个 顶点 和 条 边 的 Digraph 的 内 存 使 用 情况 。 


四 提高 是 


4.2.19 


4.2.20 


4.2.21 


4.2.22 


4.2.23 


4.2.24 


4.2.25 


4.2.26 


拓扑 排 序 与 广度 优先 搜索 。 解 释 为 何如 下 算法 无 法 得 到 一 组 拓扑 排序 ， 运行 广度 优先 搜索 并 按 
照 所 有 项 点 和 起 点 的 距离 标记 它们 。 

有 向 欧 拉 环 。 欧 拉 环 是 一 条 每 条 边 只 出 现 一 次 的 有 向 环 。 编 写 一 个 程序 Euler 来 找 出 有 向 图 中 
的 欧 拉 环 或 者 说 明 它 不 存在 。 提 示 : 当 且 仅 当 有 向 图 G 是 连通 的 且 每 个 顶点 的 出 度 和 入 度 相同 
时 G 含有 一 条 有 向 欧 拉 环 。 

有 向 无 环 图 中 的 LCA。 给 定 一 幅 有 向 无 环 图 和 两 个 顶点 v 和 w， 找 出 v 和 w 的 LCA (Lowest 
Common Ancestor， 最 近 共 同 祖先 ) 。 LCA 的 计算 在 实现 编程 语言 的 多 重 继承 、 分 析 家 谱 数据 ( 找 
出 家 族 中 近亲 繁衍 的 程度 ) 和 其 他 一 些 应 用 中 很 有 用 。 提 示 : 将 有 向 无 环 图 中 的 顶点 v 的 高 度 
定义 为 从 根 结 点 到 v 的 最 长 路 径 。 在 所 有 v 和 w 的 共同 祖先 中 ,高 度 最 大 者 就 是 v 和 w 的 最 近 
共同 祖先 。 . 

最 短 先导 路 径 。 给 定 一 幅 有 向 无 环 图 和 两 个 顶点 v 和 w， 找 册 v 和 Ww 之 间 的 及 组 先 持 路 径 。 设 v 
和 w 的 一 个 共同 的 祖先 顶点 为 x， 先 导 路 径 为 v 到 x 的 最 短路 径 和 w 到 x 的 最 短路 径 。v 和 w 之 
间 的 最 短 先导 路 径 是 所 有 先导 路 径 中 的 最 短 者 。 热 身 ; 构造 一 幅 有 向 无 环 图 ， 使 得 最 短 先导 路 


” 径 到 达 的 祖先 顶点 x 不 是 v 和 w 的 最 近 共同 祖先 。 提 示 : 进行 两 次 广度 优先 搜索 ， 一 次 从 Vv 开始， 


一 次 从 w 开 始 。 
强 连 通 分 量 。 设 计 一 种 线性 时 间 的 算法 来 计算 给 定 项 点 v 所 在 的 强 连通 分 量 。 在 这 个 算法 的 基 
础 上 设计 一 种 平方 时 间 的 算法 来 计算 有 向 图 的 所 有 强 连通 分 量 。 
有 向 无 环 图 中 的 汉密尔顿 路 径 。 设 计 一 种 线性 时 间 的 算法 来 判定 给 定 的 有 向 无 环 图 中 是 否 存 在 
一 条 能 够 正好 只 访问 每 个 顶点 一 次 的 有 向 路 径 。 
答案 : 计算 给 定 图 的 拓扑 排序 并 顺序 检查 拓扑 排序 中 每 一 对 相 邻 的 顶点 之 间 是 否 存在 一 条 边 。 
唯一 的 拓扑 排序 。 设 计 一 个 算法 来 判定 一 幅 有 向 图 的 拓扑 排序 是 否 是 唯一 的 。 提 示 : 当 且 仅 当 
拓扑 排序 中 每 一 对 相 邻 的 顶点 之 间 都 存在 一 条 有 向 边 ( 即 有 向 图 含有 一 条 汉密尔顿 路 径 ) 时 它 
的 拓扑 排序 才 是 唯一 的 。 如 果 一 幅 有 向 图 的 拓扑 排序 不 唯一 ， 另 一 种 拓扑 排序 可 以 由 交换 拓扑 
排序 中 的 某 一 对 相 邻 的 顶点 得 到 - 
2- 可 满足 性 。 给 定 一 个 由 MM 个子 句 和 NN 个 变量 的 组 成 的 以 合 取 范式 形式 给 出 的 布尔 逻辑 命题 ， 
每 个 子 句 都 正好 含有 两 个 变量 ， 找 到 一 组 使 布尔 表达 式 为 真 的 变量 赋值 ( 如 果 存 在 ) 。 提 示 : 
构造 一 幅 合 有 2N 个 顶点 的 副 活 有 向 图 ( implication graph ) ( 每 个 变量 和 它 的 反 都 各 有 一 个 顶点 ) 。 
对 于 每 个 子 句 x+ty， 添 加 一 条 从 y' 到 x 的 边 和 一 条 从 x' 到 y 的 边 。 要 满足 子 句 x+y， 必 有 (i) 
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4.2.27 
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4.2.31 














如 果 y 是 假 那么 x 为 真 ， 或 者 (ii) 如 果 x 是 假 那么 y 为 真 。 说 明 : 当 且 仅 当 没有 任何 顶点 x 和 
它 的 反 x' 存 在 于 同一 个 强 连 通 分 量 中 时 这 个 表达 式 才能 被 满足 。 另 外 ,核心 有 向 无 环 图 (将 每 
个 强 连 通 分 量 看 作 一 个 顶点 ) 的 拓扑 排序 也 能 够 产生 一 组 可 以 满足 该 表达 式 的 变量 赋值 。 

有 向 图 的 枚 举 。 证 明 所 有 不 同 的 含有 了 个 顶点 且 不 含 平行 边 的 有 向 图 的 总 数 为 2 个 。 (含有 
个 顶点 和 已 条 边 的 不 同 有 向 图 有 多 少 个 ) 假 设 宇宙 中 每 个 电子 在 一 纳 秒 内 能 够 检查 一 幅 有 向 图 ， 
字 宙 中 的 电子 总 数 不 超 过 10 个 ， 字 宙 的 寿命 小 于 10% 年 。 对 于 所 有 含有 20 个 顶点 的 不 同 有 向 
图 ， 计算 机 最 多 能 够 检查 它们 的 百 分 之 几 ? 

有 向 无 环 图 的 枚 举 。 给 出 一 个 公式 ,计算 含有 VV 个 顶点 和 条 边 的 所 有 有 向 无 环 图 的 数量 。 
算术 表达 式 。 编 写 一 个 类 来 计算 由 有 向 无 环 图 表示 的 算术 表达 式 。 使 用 一 个 由 顶点 索引 的 数组 
来 保存 每 个 顶点 所 对 应 的 值 。 假 设 叶 子 结 点 中 的 值 是 常数 。 描 述 一 组 算术 表达 式 ， 使 得 它 所 对 
应 的 表达 式 树 (expression tree ) 的 大 小 是 相应 的 有 向 无 环 图 的 大 小 的 指数 级 别 。 ( 因此 程序 处 
理 有 向 无 环 图 所 需 的 时 间 将 和 处 理 表达 式 树 所 需 的 时 间 的 对 数 成 正比 。 ) 

基于 队列 的 拓扑 排序 。 实 现 一 种 拓扑 排序 ， 使 用 由 顶点 索引 的 数组 来 保存 每 个 顶点 的 入 度 。 凯 历 
一 遍 所 有 边 并 使 用 练习 4.2.7 给 出 的 Degrees 类 来 初始 化 数组 以 及 一 条 含有 所 有 顶点 的 队列 。 然 
后 ， 重 复 以 下 操作 直到 起 点 队列 为 空 : 

口 从 队列 中 删 去 一 个 顶点 并 将 其 标记 ; 

口 遍历 由 被 删除 顶点 指出 的 所 有 边 ， 将 所 有 被 指向 的 顶点 的 入 度 减 一 ; 

口 如 果 顶 点 的 人 度 变 为 0， 将 它 插入 顶点 队列 。 

有 向 欧 拉 图 。 修 改 你 为 4.1.37 给 出 的 解答 ， 为 平面 图 设计 一 份 API 名 为 EulideanDigraph， 这 
样 你 就 能 够 处 理 用 图 形 表示 的 图 了 。 


图 实验 十 


4.2.32 


4.2.33 


4.2.38 














随机 有 向 图 ,编写 一 个 程序 ErdosRenyiDigraph, 从 命令 行 接受 整数 VY 和 ,随机 生成 E 对 0 到 V1 

之 间 的 整数 来 构造 一 幅 有 向 图 。 注 意 : 生成 器 可 能 会 产生 自 环 和 平行 边 。 

随机 简单 有 向 图 。 编 写 一 个 程序 RandomSimp1eDigraph， 从 命令 行 接受 整数 志和 已， 用 均等 的 

几率 生成 含有 个 顶点 和 EE 条 边 的 所 有 可 能 的 简单 有 向 图 。 

随机 稀疏 有 向 图 。 将 你 为 练习 4.1.41 给 出 的 解答 修改 为 RandomSparseDigraph， 根 据 精心 选择 

的 一 组 VY 和 的 值 生成 随机 的 稀 政 有 向 图 ， 使 得 我 们 可 以 用 它 进行 有 意义 的 经 验 性 测试 。 

随机 欧 拉 图 。 将 你 为 练习 41. 和 2 给 出 的 解答 修改 为 EslideanDigraph 的 用 例 RandomEul1ideanDigraph， 

随机 指定 每 条 边 的 方向 。 

随机 网 格 图 。 将 你 为 练习 4.1.43 给 出 的 解答 修改 为 Eu1ideanDigraph 的 用 例 RandomGridDigraph， 

随机 指定 每 条 边 的 方向 。 

真实 世界 中 的 有 向 图 。 从 互联 网 上 找 出 一 幅 巨 型 有 向 图 一 一 可 以 是 某 个 在 线 商 业 系统 的 交易 图 ， 

或 是 由 网 页 和 链接 得 到 的 有 向 图 。 编 写 一 段 程序 RandomRea1Digraph， 从 这 些 顶 点 构成 的 子 图 

中 随机 选取 矿 个 顶点 ， 然 后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 已 条 边 来 构造 一 幅 图 。 

真实 世界 中 的 有 向 无 环 图 。 从 互联 网 上 找 出 一 幅 巨 型 有 向 无 环 图 一 一 可 以 是 大 型 软件 系统 中 的 

类 依赖 关系 ， 或 是 大 型 文件 系统 中 的 目录 结构 。 编 写 一 段 程序 RandomRea1DAG， 从 这 些 顶点 构 

成 的 子 图 中 随机 选取 V 个 顶点 ,然后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 条 边 来 构造 一 幅 图 。 
测试 所 有 的 算法 并 研究 所 有 图 模型 的 所 有 参 教 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 
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段 程序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模 
.型 进行 实验 。 你 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实 验 。 陈 述 结果 以 及 由 
此 得 出 的 任何 结论 。 < 
可 达 性 。 对 于 各 种 有 向 图 的 模型 ， 运 行 实验 并 根据 经 验 判 断 从 一 个 随机 选 定 的 顶点 可 以 到 达 的 
顶点 数量 的 平均 值 。 


深度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 有 向 图 的 模型 ， 运 行 实验 并 根据 经 验 判断 Depth- 


”FirstDirectedPaths 在 两 个 随机 选 定 的 顶点 之 间 找 到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 


4.2.41 


4.2.42 





长 度 。 站 

广度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 有 向 图 的 模型 ， 运 行 实验 并 根据 经 验 判断 Breadth- 
FirstDirectedPaths 在 两 个 随机 选 定 的 顶点 之 间 找 到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 
长 度 。 

强 连 通 分 量 。 运 行 实验 随机 生成 大 量 有 向 图 并 画 出 柱状 图 ， 根 据 经 验 判 断 各 种 类 型 的 随机 有 向 
图 中 强 连通 分 量 的 数量 的 分 布 情况 。 
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4.3 ”最 小 生成 树 


加 权 图 是 一 种 为 每 条 边关 联 一 个 权 值 或 是 成 本 的 图 模型 。 这 种 图 能 够 自然 地 表示 许多 应 用 。 在 
一 幅 航 空 图 中 ， 边 表示 航线 ， 权 值 则 可 以 表示 距离 或 是 费用 。 在 一 幅 电 路 图 中 ， 边 表示 导线 ， 权 值 


tinyEmG. txt 则 可 能 表示 导线 的 长 度 即 成 本 ， 或 是 信号 通过 这 条 线 
ss 路 所 需 的 时 间 。 在 这 些 情形 中 ， 最 令 人 感 兴趣 的 自然 
45 0.35 最 小 生成 树 是 将 成 本 最 小 化 。 在 本 节 中 ， 我 们 将 学 习 加 权 无 向 图 
$7 0 模型 并 用 算法 回答 下 面 这 个 问题 。 
0 7 0.16 ome 最 小 生成 树 。 给 定 一 幅 加 权 无 向 图 ， 找 到 它 的 一 
gm 棵 最 小 生成 树 。 
23 0.17 
17 0.19 (0 
a © 定义 。 图 的 生成 树 是 它 的 一 棵 含有 其 所 有 顶点 的 
无 环 连通 子 图 。 一 幅 加 权 无 向 图 的 最 小 生成 树 
62 非 最 小 生成 (MST ) 是 它 的 一 棵 权 值 ( 树 中 所 有 边 的 权 值 之 和 ) 


一 ( 训 色 ) 最 小 的 生成 树 。 (请 见 图 4.3.1 ) 。 


在 本 节 中 ， 我 们 会 学 习 计 算 最 小 生成 树 的 两 种 经 
典 算法 : Prim 算法 和 Kruskal 算 法 ,这些 算法 理解 容易 ， 
实现 简单 。 它 们 是 本 书 中 最 古老 和 最 知名 的 算法 之 一 ， 但 它们 也 根据 现代 数据 结构 得 到 了 改进 。 因 
为 最 小 生成 树 的 重要 应 用 领域 太 多 ， 对 解决 这 个 问题 的 算法 的 研究 至 少 从 20 世纪 20 年 代 在 设计 电 
力 分 配 网 络 时 就 开始 了 。 现在 , 最 小 生成 树 算法 在 设计 各 种 类 型 的 网 络 ( 通信 、 电子 、 水利、 计算 机 、 
公路 、 铁 路 、 航 空 等 ) 以 及 自然 界 中 的 生物 、 化 学 和 物理 网 络 等 各 个 领域 的 研究 中 都 起 到 了 重要 的 
作用 ， 请 见 表 4.3.1。 


图 4.3.1 一 幅 加 权 无 向 图 和 它 的 最 小 生成 树 


表 4.3.1 最 小生 成 树 的 典型 应 用 





应 用 领域 项 点 边 

电路 元 器 件 导线 
航空 机 场 航线 
电力 分 配 电站 输电 线 
图 像 分 析 面部 容 摇 相似 关系 


一 些 约定 
在 计算 最 小 生成 树 的 过 程 中 可 能 会 出 现 各 种 特殊 情况 。 虽 然 它们 大 多 数 都 很 容易 处 理 ， 但 为 了 
行文 的 流畅 ， 我 们 约定 如 下 。 
口 只 考虑 连通 图 。 我 们 对 生成 树 的 定义 意味 着 最 小 生成 树 只 可 能 存在 于 连通 图 中 ， 请 见 图 
4.3.2a。 从 另 一 个 角度 来 说 ， 请 回想 4.1 节 所 述 的 树 的 基本 性 质 ， 我 们 要 找 的 就 是 一 个 由 大 1 
条 边 组 成 的 集合 , 它们 既 连通 了 图 中 的 所 有 顶点 而 权 值 之 和 又 最 小 。 如 果 一 幅 图 是 非 连通 的 ， 
我 们 只 能 使 用 这 个 算法 来 计算 它 的 所 有 连通 分 量 的 最 小 生成 树 ， 合 并 在 一 起 称 其 为 最 小 生成 
森林 ( 请 见 练习 4.3.22 ) 。 
口 边 的 权重 不 一 定 表示 距离 。 有 时 你 对 几何 学 的 直觉 能 够 帮助 你 理解 算法 ， 因 此 在 示例 中 ,项 
点 都 表示 是 平面 上 的 点 ， 而 权重 都 表示 是 两 点 之 间 的 距离 ， 比 如 图 4.3.2b。 但 需要 注意 的 是 ， 


权重 也 可 能 表示 时 间 、 费 用 或 是 其 他 完全 不 同 的 
变量 ， 而 且 也 完全 不 一 定 会 和 距离 成 正比 。 
口 边 的 权重 可 能 是 0 或 者 负数 。 如 果 边 的 权重 都 是 
正 的， 将 最 小 生成 树 定义 为 连接 所 有 项 点 且 总 权 
重 最 小 的 子 图 就 足够 了 ， 这 样 的 一 幅 子 图 必然 是 
一 棵 生成 树 。 定 义 中 的 生成 树 条 件 说 明 图 也 可 以 
含有 权重 为 0 或 是 负数 的 边 ， 请 见 图 4.3.2c。 
口 所 有 边 的 权重 都 各 不 相同 。 如 果 不 同 边 的 权重 可 
以 相同 ， 最 小 生成 树 就 不 一 定 唯一 了 ( 请 见 练习 
4.3.2) 。 存 在 多 棵 最 小 生成 树 的 可 能 性 会 使 部 分 
算法 的 证 明 变 得 更 加 复杂 ， 因 此 我 们 在 表示 中 排 
除了 这 种 可 能 性 。 事 实 上 这 个 假设 并 没有 限制 算 
法 的 适用 范围 ， 因 为 不 做 修改 它们 也 能 处 理 存在 
等 值 权重 的 情况 ， 请 见 图 4.3.2d 。 
总 之 ， 在 学 习 最 小 生成 树 相关 算法 的 过 程 中 我 们 假设 
任务 的 目标 是 在 一 幅 加 权 ( 但 权 值 各 不 相同 的 ) 连通 无 向 
图 中 找到 它 的 最 小 生成 树 。 


4.3.1 原理 

首先 ， 我 们 回顾 一 下 4.1 节 中 给 出 的 树 的 两 个 最 重要 
的 性 质 ， 另 见 图 4.3.3: 

口 用 一 条 边 连接 树 中 的 任意 两 个 顶点 都 会 产生 一 个 

新 的 环 ; 

口 从 树 中 删 去 一 条 边 将 会 得 到 两 棵 独立 的 树 。 

这 两 条 性 质 是 证 明 最 小 生成 树 的 另 一 条 基本 性 质 的 
基础 ， 而 由 这 条 基本 性 质 就 能 够 得 到 本 节 中 的 最 小 生成 树 
算法 。 
4.3.1.1 切 分 定理 

我 们 称 之 为 切 分 定理 的 这 条 人 性质 将 会 把 加 权 图 中 的 
所 有 顶点 分 为 两 个 集合 、 检 查 横 跨 两 个 集合 的 所 有 边 并 识 
别 哪 条 边 应 属于 图 的 最 小 生成 树 。 





4.3 最 小 生成 树 号 391 


(a) 非 连通 的 无 向 图 中 不 存在 最 小 生成 树 


4 5 0.61 
© 
©) @ 15 0.11 
GO GD 23 0.35 
16 0.10 
oo 02 0.22 
单独 计算 连通 分 
量 的 最 小 生成 树 
(b) 权重 不 一 定 和 距离 成 正比 
4 6 0.62 
© (QQ) 15 0.02 
OO) 
© 0 2 0.22 
© 12 0.50 
13 0.97 
26 0.17 
(e) 权重 可 能 是 0 或 者 负数 
GO (~ 1 oo 
@ 0 4 -0.99 
© 16 0 
O 0 2 0.22 
O 12 0.50 
13 0.97 
(d) 如 果 存 在 相等 的 权重 ， 
那 最 小 生成 树 可 能 不 唯一 
(2 
GD) 13 0.50 
2 4 1.00 
GA 3 4 0.50 


1 3 

GA 3 4 0.50 

图 4.3.2 计算 最 小 生成 树 时 可 能 遇 到 
的 各 种 特殊 情况 


定义 。 图 的 一 种 切 分 是 将 图 的 所 有 顶点 分 为 两 个 非 空 且 不 重复 的 两 个 集合 。 模 切 边 是 一 条 连接 


两 个 属于 不 同 集合 的 顶点 的 边 。 


通常 , 我 们 通过 指定 一 个 顶点 集 并 隐 式 地 认为 它 的 补 集 为 另 一 个 顶点 集 来 指定 一 个 切 分 。 这 样 ， 
一 条 横 切 边 就 是 连接 该 集合 的 一 个 顶点 和 不 在 该 集合 中 的 另 一 个 顶点 的 一 条 边 。 如 图 4.3.4 所 示 ， 
我 们 将 切 分 中 一 个 集合 的 顶点 都 画 为 了 灰色 ， 另 一 个 集合 的 顶点 则 为 白色 。 
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添 中 一 条 边 会 
pg 创建 一 个 环 
将 灰色 和 白色 顶点 区 别 
开 来 的 横 切 边 为 红色 
删除 一 条 边 会 权重 最 小 的 横 切 边 肯 
将 树 一 分 为 二 定 属 于 最 小 生成 树 


图 4.3.3 树 的 基本 性 质 图 4.3.4 切 分 定理 ( 另 见 彩 插 ) ”图 4.3.5 产生 了 两 条 属于 最 小 生成 
树 的 横 切 边 的 一 种 切 分 


命题 J( 切 分 定理 ) 。 在 一 幅 加 权 图 中 ， 给 定 任意 的 切 分 ， 它 的 横 切 边 中 的 权重 最 小 者 必然 属 
于 图 的 最 小 生成 树 。 


证 明 。 另 e 为 权重 最 小 的 横 切 边 ，7 为 图 的 最 小 生成 树 。 我 们 采用 反 证 法 : 假设 了 不 包含 e。 那 
么 如 果 将 e 加 入 T， 得 到 的 图 必然 全 有 一 条 经 过 e 的 环 ， 且 这 个 环 至 少 含有 另 一 条 横 切 边 一 一 
设 为 有 , /的 权重 必然 大 于 e (因为 e 的 权重 是 最 小 的 且 图 中 所 有 这 的 权重 均 不 同 ) 。 那 么 我 们 
删 掉 7 而 保留 e 就 可 以 得 到 一 棵 权重 更 小 的 生成 树 。 这 和 我 们 的 假设 了 矛盾 。 


在 假设 所 有 的 边 的 权重 均 不 相同 的 前 提 下 ， 每 幅 连 通 图 都 只 有 一 棵 唯一 的 最 小 生成 树 (请 见 
练习 4.3.3 ) ， 切 分 定理 也 表明 了 对 于 每 一 种 切 分 ， 权 重 最 小 的 横 切 边 必然 属于 最 小 生成 树 。 

图 4.3.4 是 切 分 定理 的 示意 图 。 注 意 ， 权 重 最 小 的 横 切 边 并 不 一 定 是 所 有 横 切 边 中 唯一 属于 图 
的 最 小 生成 树 的 边 。 实 际 上 , 许多 切 分 都 会 产生 若干 条 属于 最 小 生成 树 的 横 切 边 ， 如 图 4.3.5 所 示 。 
4.3.1.2 贪心 算法 

切 分 定理 是 解决 最 小 生成 树 问题 的 所 有 算法 的 基础 。 更 确切 的 说 ， 这 些 算法 都 是 一 种 贪心 算法 
的 特殊 情况 : 使 用 切 分 定理 找到 最 小 生成 树 的 一 条 边 ， 不 断 重复 直到 找到 最 小 生成 树 的 所 有 边 。 这 
些 算 法 相互 之 间 的 不 同 之 处 在 于 保存 切 分 和 判定 权重 最 小 的 横 切 边 的 方式 ， 但 它们 都 是 以 下 性 质 的 
特殊 情况 。 







命题 K《 最 小 生成 树 的 信心 算 法 ) 。 下 面 这 种 方法 会 交合 有 个 顶 上 
小 生成 树 的 边 标记 为 黑色 : 初 始 状 态 下 所 有 边 均 为 灰色 ， 找 到 一 种 
黑色 。 将 它 权 重 最 小 的 模 切 边 标 记 为 黑色 。 反复， 直到 标记 了 PC- 


证 明 。 为 了 简单 ， 我 们 假设 所 有 边 的 权重 均 不 相同 ， 尽 管 没有 这 个 > 
练习 4.3.5) 。 根 据 切 分 定理 ， 所 有 被 标记 为 黑色 的 边 均 属于 最 小 生成 树 果 黑 . 
于 天 1, 必然 还 存在 不 会 产生 黑色 横 切 边 的 切 分 ( 因为 我 们 假设 图 是 连通 的 )， 要 到了 rl 
条 黑色 的 边 ， 这 些 边 所 组 成 的 就 是 一 棵 最 小 生成 树 。 
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图 4.3.6 所 示 的 是 这 个 贪心 算法 运行 的 典型 轨迹 。 每 一 幅 


(0 

9 OO O 图 表现 的 都 是 一 次 切 分 ， 其 中 算法 识别 了 一 条 权重 最 小 的 横 切 
O 〇 边 (红色 加 粗 ) 并 将 它 加 入 最 小 生成 树 之 中 。 

Oo I®) 

o 4.3.2 ”加 权 无 向 图 的 数据 类 型 


加 权 无 向 图 应 该 如 何 表示 ? 也 许 最 简单 的 方法 就 是 扩展 
4.1 节 中 对 无 向 图 的 表示 方法 : 在 邻接 矩阵 的 表示 中 ， 可 以 用 


小 生成 树 中 的 这 边 的 权重 代替 布尔 值 来 作为 矩阵 的 元 素 ; 在 邻接 表 的 表示 中 ， 
0 可 以 在 链表 的 结 点 中 增加 一 个 权重 域 。 ( 和 以 前 一 样 ， 我 们 把 
ce 重点 放 在 稀疏 图 上 ， 将 邻接 矩阵 的 表示 方法 留 作 练习 。 ) 这 种 





的 方法 很 有 吸引 力 ， 但 我 们 会 使 用 另外 一 种 并 不 太 复杂 的 


OO EB 
O 引咎 丰 表示 方式 。 它 需要 一 个 更 加 通用 的 API 来 处 理 Edge 对 象 ， 能 
T 够 使 程序 适用 于 更 加 常见 的 场景 ， 请 见 表 4.3.2。 
表 4.3.2 加 权 边 的 API 
public class Edge implements Comparable<Edge> 
Edge(int v，int w， 用 于 初始 化 的 构造 
double weight) 函数 
double weight() 边 的 权重 





int either() 边 两 端的 顶点 之 一 
int other(Cint v) 另 一 个 顶点 
mpareTo(Edge that) 将 这 条 边 e 与 that 
比较 


对 象 的 字符 串 表示 


访问 边 的 端点 的 either() 和 other() 方法 乍 一 看 会 有 些 
奇怪 一 一 在 看 到 调用 它们 的 代码 时 就 会 清楚 了 为 什么 会 有 这 样 
的 需要 了 。Edge 的 实现 请 见 框 注 “ 带 权重 的 边 的 数据 类 型 ”， 


它 是 EdgeweightedGraph 的 API 的 基础 。 加 权 无 向 图 的 实现 
很 自然 地 使 用 了 Edge 对 象 ， 请 见 表 4.3.3。 
A、 表 4.3.3 加 权 无 向 图 的 API 


public class_EdgeweightedGraph 
EdgeweightedGraphCint V) Ce V 个 项 








点 的 空 
EdgeweightedGraph(In in) ”从 输入 流 中 读 取 图 
图 4.3.6 贪心 最 小 生成 树 算法 nt VO 图 的 项 点 数 
( 另 见 彩 插 ) int EO 图 的 边 数 
void addEdge(Edge e) 向 图 中 添加 一 条 边 
Iterable<Edge> adj(int v) 和 v 相关 联 的 所 有 边 
Tterable<Edge> edges() 图 的 所 有 边 605 








ing( 对 象 的 字符 串 表示 608 
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这 份 API 和 Graph 的 API (请 见 表 4.1.1) 


b1i ab1 ed 
非常 相似 。 两 者 的 两 个 重要 的 不 同 之 处 在 WW。 Trerable<Edge> edgesO 


于 本 节 API 的 基础 是 Edge 且 添 加 了 一 个 Bed parsley 
= 0;v<V; 
edgesQ 方法 ( 请 见 框 注 “返回 加 权 无 向 图 for (Edge e : adj[v]) 
中 的 所 有 边 ”) 来 遍历 图 的 所 有 边 ( 忽略 自 if (e.other(v) > v) b.add(e); 


return b; 


环 ) 。 后 面 框 注 “加 权 无 向 图 的 数据 类 型 ” } 
中 EdgeweightedGraph 的 实现 的 其 他 部 分 与 
4.1 节 的 无 环 图 的 实现 基本 相同 ， 只 是 在 邻接 返回 加 权 无 向 图 中 的 所 有 边 
表 中 用 Edge 对 象 蔡 代 了 Graph 中 的 整数 来 作为 链表 的 结 点 。 

图 4.3.7 显示 的 是 在 处 理 样 例文 件 tinyEWG.txt 时 用 EdgeweightedGraph 对 象 表示 的 加 权 无 向 
图 。 它 按照 1.3 节 中 的 标准 实现 显示 了 链表 中 每 个 Bag 对 象 的 内 容 。 为 了 整洁 ， 用 一 对 int 值 和 一 
个 double 值 表 示 每 个 Edge 对 象 。 实 际 的 数据 结构 是 一 个 链表 ， 其 中 每 个 元 素 都 是 一 个 指向 含有 
这 些 值 的 对 象 的 指针 。 需 要 特别 注意 的 是 ， 虽 然 每 个 Edge 对 象 都 有 两 个 引用 每 个 顶点 的 链表 中 
都 有 一 个 ) ， 但 图 中 的 每 条 边 所 对 应 的 Edge 对 象 只 有 一 个 。 在 示意 图 中 ， 边 在 链表 中 的 出 现 顺序 
和 处 理 它们 的 顺序 是 相反 的 ， 这 是 由 于 标准 链表 实现 和 栈 的 相似 性 所 导致 的 。 和 Graph 一 样 ， 使 用 
Bag 对 象 可 以 保证 用 例 的 代码 和 链表 中 对 象 的 顺序 是 无 关 的 。 

























































































































































































tinyEwG.txt ~[eloLss}-[ol21.26 [ol4T.38}-[ol7T.16 ee 
VV 

生肖 

一 
0 ~EEBLas -GILs | | 

0 
4 7 0.37 
Ee ~[eTz[.}—[z217 [34121 }[ol? T2612 3T.7]| 
07 0.16 2 
0 0 ee 
人 :HT 4[7 35 
02 026 6 ea 人 
1 2 0.36 ~ 人 二， 向 
自作 二 和 NS 1 Edge 对 象 的 引用 
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带 权重 的 边 的 数据 类 型 

public class Edge implements Comparable<Edge> 
{ 

private final int vi // 顶点 之 一 

private final int w; // 另 一 个 顶点 

private final double weight; // 边 的 权重 


public Edge(Cint v, int w, double weight) 
4 


this.v = Vi 


了 


this:w = wi Ek 
this.weight = weight; 





public double weightO 
{ return weight; } 





public int either re 
{ returnv;-} fe 


public int otherCint vertex) 二 


if (Vertex == v) return w; 
else if (vertex == m return v; 
else throw new RuntimeException(“Inconsistent 


} 
pubTic int compareTokEdge that) 


(this.weight() <-that.weight()) return 


else if (this.weight() > that.weight()) return 
else return 


public String toString() 


edge” 


-1; 


+1; 
0; 


{ return String.format(“%d-%d %.2f”，v，w，weight); 


3 


} 


该 数据 结构 提供 了 either() 和 other 两 个 方法 。 在 已 知 一 个 顶点 v 时 ， 用 例 可 以 使 用 other(v) 
来 得 到 边 的 另 一 个 项 点 。 当 两 个 顶点 都 是 未 知 的 时 候 ， 用 例 可 以 使 用 惯用 代码 v=e.either() ，w=e. 
other(v); 来 访问 一 个 Edge 对 象 e 的 两 个 顶点 。 
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{ 


加 权 无 向 图 的 数据 类 型 
public class Edgeweightedcraph 
private final int Vi // 顶点 站 
private int E; // 边 的 总 数 
private Bag<Edge>[] adj; // 邻接 表 


public EdgeWeightedGraph Cint V) 
{ 


this.V Vs; 
this.E = 0; 
adj = (Bag<Edge>[]) new Bag[V]; 


for Cint v = 0; v < V; v++) 


adjfv] = new Bag<Edge>O; 
PUBTiE EdgeWeightedGraph(In in) 
// 见 练习 43.9 


return Vi } 
return E: } 


Publia int VO { 
public int EC { 


Public void addEdge (Edge e) 
{ 
int v = e.either(), w ~ e.other(v); 
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adj[v] .add(e); 
adj[w] .addCe]; 
Ets 


于 


public Iterable<Edge> adj(int v) 
{ return adj[v]; } 


public Iterable<Edge> edges() 
// 请 见 43.2 节 框 注 “返回 加 权 无 向 图 中 的 所 有 边 ” 


} 

该 实现 使 用 了 一 个 由 项 点 索引 的 邻接 表 。 与 Graph ( 请 见 4.1.2.2 节 框 注 “Graph 数据 类 型 ”) 
一 样 ， 每 条 边 都 会 出 现 两 次 : 如 果 一 条 边 连 接 了 顶点 v 和 w， 那 么 它 既 会 出 现在 v 的 链表 中 也 会 出 
现在 w 的 链表 中 。edges() 方法 将 所 有 边 放 在 一 个 Bag 对 象 中 ( 请 见 4.3.2 节 框 注 “ 返 回 加 权 无 向 
图 中 的 所 有 边 ” ) 。toString 0) 方法 的 实现 留 作 练习 。 
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4.3.2.1 用 权重 来 比较 边 

API 说 明 Edge 类 必须 实现 Comparable 接口 并 包含 一 个 compareTo0) 方法 。 一 幅 加 权 无 向 图 中 
的 边 的 自然 次 序 就 是 按 权重 排序 ， 相 应 的 compareTo() 方法 的 实现 也 就 很 简单 了 。 
4.3.2.2 平行 边 

和 无 环 图 的 实现 一 样 ， 这 里 也 允许 存在 平行 边 。 我 们 也 可 以 用 更 复杂 的 方式 实现 Edge- 
WeightedGraph 类 来 消除 平行 边 ， 比 如 只 保留 平行 的 边 中 的 权重 最 小 者 。 
4.3.3.3 自 环 

允许 存在 自 环 。 尽 管 自 环 可 能 的 确 存在 于 输入 或 是 数据 结构 之 中 ， 但 是 EdgeweightedGraph 
中 edge() 的 实现 并 没有 统计 它们 。 这 对 最 小 生成 树 算 法 没有 影响 ， 因 为 最 小 生成 树 肯 定 不 会 含有 
自 环 。 如 果 在 应 用 中 自 环 很 重要 ， 那 你 或 许 需要 根据 应 用 场景 修改 代码 。 

你 会 看 到 ， 有 了 Edge 对 象 之 后 用 例 的 代码 就 可 以 变 得 更 加 干净 整洁 。 这 也 有 个 小 小 的 代价 : 
每 个 邻接 表 的 结 点 都 是 一 个 指向 Edge 对 象 的 引用 ， 它 们 含有 一 些 元 余 的 信息 (v 的 邻接 链表 中 的 
每 个 结 点 都 会 用 一 个 变量 保存 v ) 。 使 用 对 象 也 会 带 来 一 些 开销 。 虽 然 每 条 边 的 Edge 对 象 都 只 有 
一 个 ,但 邻接 表 中 还 是 会 含有 两 个 指向 同一 Edge 对 象 的 引用 。 另 一 种 广泛 使 用 的 方案 是 与 Graph 
一 样 ， 用 两 个 结 点 对 象 来 表示 一 条 边 ， 每 个 结 点 对 象 都 会 保存 顶点 的 信息 和 边 的 权重 。 这 种 方法 也 
是 有 代价 的 一 一 需要 两 个 结 点 ， 每 条 边 的 权重 都 会 被 保存 两 遍 。 


4.3.3 ”最 小 生成 树 的 API 和 测试 用 例 


按照 惯例 ， 在 API 中 会 定义 一 个 接受 加 权 无 向 图 为 参数 的 构造 函数 并 且 支 持 能 够 为 用 例 返 回 图 
的 最 小 生成 树 和 其 权重 的 方法 。 那 么 我 们 应 该 如 何 表示 最 小 生成 树 呢 ? 由 于 图 G 的 最 小 生成 树 是 G 
的 一 幅 子 图 并 且 同 时 也 是 一 棵 树 ， 因 此 我 们 有 很 多 选择 ， 最 主要 的 几 种 表示 方法 为 : 

口 一 组 边 的 列表 ; 

口 一 幅 加 权 无 向 图 ; 

口 一 个 以 顶点 为 索引 且 含有 父 结 点 链接 的 数组 。 

在 为 各 种 应 用 选择 这 些 表示 方法 时 ， 我 们 希望 尽量 给 予 最 小 生成 树 的 实现 以 最 大 的 灵活 性 ， 因 
此 我 们 采用 了 表 4.3.4 所 示 的 API。 
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表 4.3.4 最 小 生成 树 的 API 








public class MST 





MST(EdgeweightedGraph G) 构造 丽 数 
Iterable<Edge> edges() 最 小 生成 树 的 所 有 边 
double weight() 最 小 生成 树 的 权重 





4.3.3.1 测试 用 例 
和 以 前 一 样 ， 我 们 会 创建 样 图 并 开发 一 个 
测试 用 例 来 测试 最 小 生成 树 的 实现 。 右 侧 框 注 


public static void main(String[] args) 
{ 


就 是 一 个 示例 。 它 从 输入 流 中 读 取 图 的 所 有 边 In in ~ new Tnargsro]); 
ightedGi G; 
并 构造 一 帆 加 权 无 向 图 ， 然 后 计算 该 图 的 最 小 0 oe a 
生成 树 并 打印 树 的 所 有 边 和 权重 之 和 。 Ns 
4.3.3.2 ”测试 数据 Es for (Edge e : mst.edges()) 
你 可 以 在 本 书 的 网 站 上 找到 tinyEWGtxt et 


文件 ， 它 定义 了 我 们 用 来 展示 最 小 生成 树 算法 } 

的 轨迹 样 图 ( 请 见 图 43.1 ) 。 在 网 站 上 你 还 能 

找到 mediumEWG.txt， 它 定义 了 一 幅 含 有 250 

个 顶点 的 加 权 无 向 图 ， 如 图 4.3.8 所 示 。 它 也 是 一 幅 欧 拉 图 的 示例 ， 它 的 顶点 都 是 平面 上 的 点 ， 边 为 
连接 它们 的 线段 且 权重 为 两 点 之 间 的 欧 拉 距 离 。 这 样 的 图 有 助 于 我 们 理解 最 小 生成 树 算法 的 行为 ， 同 
时 也 是 我 们 提 到 过 的 许多 典型 实际 问题 的 模型 ， 例 如 公路 地 图 和 电路 图 。 在 本 书 的 网 站 上 你 还 能 找到 
一 幅 较 大 的 样 图 largeEWG .txt， 它 是 一 幅 含 有 一 百 万 个 顶点 的 欧 拉 图 。 我 们 的 目标 就 是 在 合理 的 时 间 
范围 内 通过 计算 得 到 这 种 规模 的 图 的 最 小 生成 树 。 


最 小 生成 树 的 测试 用 例 








% more tinyEWG.txt % more mediumEWG.txt 
8 16 -250 1273 
45 .35 244 246 0.11712 
4 7 .37 239 240 0.10616 
5 7 .28 238 245 0.06142 
0 7 .16 235 238 0.07048 
1 5 .32 233 240 0.07634 
0 4 .38 232 248 0.10223 
2 3 .17 231 248 0.10699 
17 .19 229 249 0.10098 
0 2 .26 228 241 0.01473 
学 和 226 231 0.07638 
1 3 .29 [还 有 1263 条 边 ] 
re 
62 :4 % java MST mediumEWG. txt 
36.52 0 225 0.02383 
60.58 49 225 0.03314 
6 4 .93 44 49 0.02107 
44 204 0.01774 
% java MST tinyEWG.txt 49 97 0.03121 
0-7 0.16 202 204 0.04207 
1-7 0.19 176 202 0.04299 
0-2 0.26 176 191 0.02089 
2-3 0.17 68 176 0.04396 
5-7 0.28 58 68 0.04795 
4-5 0.35 . 。[ 还 有 293 条 边 ] 
6-2 0.40 10.46351 
1:81 
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-出 了 很 多 方法 一 一 在 用 一 种 特别 简单 的 方法 解决 这 个 问题 之 


.4.3.4.1. 数据 结构 本 


加 权 无 向 图 。 曲 小 生成 树 ” “- 一 


图 43.8， 一 幅 含 有 250 个 顶点 的 无 向 加 权 欧 拉 图 ( 共 含有 1273 条 边 ) 和 它 的 最 小 生成 树 


4.3.4 Prim 算法 

我 们 要 学 习 的 第 一 种 计算 最 小 生成 树 的 方法 叫做 Prim 算法 ， 它 的 每 一 步 都 会 为 一 棵 生长 中 的 
树 添 加 一 条 边 。 一 开始 这 棵 树 只 有 一 个 顶点 ， 然 后 会 向 它 添加 天 1 条 边 ， 每 次 总 是 将 下 一 条 连接 树 
中 的 顶点 与 不 在 树 中 的 项 点 且 权重 最 小 的 边 (黑色 表示 ) 加 入 树 中 ( 即 由 树 中 的 顶点 所 定义 的 切 分 
中 的 一 条 横 切 边 ) ， 如 图 4.3.9 所 示 。 


命题 L。Prim 算法 能 够 得 到 任意 加 权 无 向 图 的 最 小 生成 树 。 
证 明 。 由 命题 K 可 知 ， 这 棵 不 断 生长 的 树 定义 了 一 个 切 分 且 不 存在 黑色 的 模 切 边 。 该 算法 会 选 
取 权 重 最 小 的 横 切 边 并 根据 贪心 算法 不 断 将 它们 标记 为 黑色 。 


以 上 我 们 对 Prim 算法 的 简单 描述 没有 回答 一 个 关键 的 问 


题 : 如 何 才能 (有 效 地 ) 找到 最 小 权重 的 模 切 边 呢 ? 人 们 提 、 。 失修 的 边 必 人 2 









后 我 们 会 讨论 其 中 的 一 部 分 方法 。 


实现 prim 算法 需要 用 到 一 些 简单 常见 的 数据 结构 。 有 具体 来 
说 ; 我 们 会 用 以 下 方法 表示 树 中 的 顶点 、 边 和 横 切 边 。 
口 顶点 。 使 用 一 个 由 顶点 索引 的 布尔 数组 marked[] ， 如 


将 要 添加 到 最 
小 生成 树 中 的 
权重 最 小 的 横 





果 顶 点 v 在 树 中 ,那么 marked[v] 的 值 为 true。 | 1 二 
口 边 。 选择 以 下 两 种 数据 结构 之 一 :一 条 队列 mst 来 保 。 。 ”让 、 > 
存 最 小 生成 树 中 的 边 ， 或 者 一 个 由 顶点 索引 的 ,Edge 对 
4.3.9 ly 的 
象 的 数组 edgeT60]， 其 中 edgeTo[v] 为 将 v 连 接 到 。 图 4 9 六 和 生成 办 的 Prim 算法 


树 中 的 Edge 对 象 。 
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口 横 切 边 : 使 用 一 条 优先 队列 MinPQ<Edge> 来 根据 权重 比较 所 有 边 ( 请 见 4.3.2 节 框 注 “ 带 权 
重 的 边 的 数据 类 型 ”) 。 7 
有 了 这 些 数 据 结构 我 们 就 可 以 回答 “ 哪 条 边 的 权重 最 小 ? ”这 个 基本 的 问题 了 。 
4.3.4.2 ”维护 横 切 边 的 集合 
每 当 我 们 向 树 中 添加 了 一 条 边 之 后 ， 也 
向 树 中 添加 了 一 个 顶点 。 要 维护 一 个 包含 所 有 
” 横 切 边 的 集合 ， 就 要 将 连接 这 个 顶点 和 其 他 
所 有 不 在 树 中 的 顶点 的 边 加 入 优先 队列 ( 用 _ 
marked[] 来 识别 这 样 的 边 ) 。 但 还 有 一 点 : 
连接 新 加 入 树 中 的 顶点 与 其 他 已 经 在 树 中 顶点 ， 
的 所 有 边 都 失效 了 。 ( 这样 的 边 都 已 经 不 是 横 
切 边 了 ， 因 为 它 的 两 个 顶点 都 在 树 中 。 ) Prim 
算法 的 即时 实现 可 以 将 这 样 的 边 从 优先 队列 中 
删 掉 ， 但 我 们 先 来 学 习 这 个 算法 的 一 种 延 时 实 
现 ， 将 这 些 边 先 留 在 优先 队列 中 ， 等 到 要 删除 
它们 的 时 候 再 检查 边 的 有 效 性 。 

图 4.3.10 是 处 理 样 图 tinyEWG.txt 的 轨迹 = 

每 一 张 图 片 都 是 算法 访问 过 一 个 顶点 之 后 (被 
添加 到 树 中 ， 邻 接 链表 中 的 边 也 已 经 被 处 理 完 - 
成 ) 图 和 优先 队列 的 状态 。 优 先 队列 的 内 容 被 
按照 顺序 显示 在 一 侧 ， 树 中 的 新 顶点 旁边 有 个 
星 号 。 算 法 构造 最 小 生成 树 的 过 程 如 下 所 述 。 

口 将 顶点 0 添加 到 最 小 生成 树 之 中 ， 将 它 
的 邻接 链表 中 的 所 有 边 添 加 到 优先 队列 
之 中 。 

口 将 顶点 7 和 边 0-7 添加 到 最 小 生成 树 
之 中 ,将 顶点 的 邻接 链表 中 的 所 有 边 
添加 到 优先 队列 之 中 。 

口 将 顶点 1 和 边 1-7 添加 到 最 小 生成 树 
之 中 ,将 顶点 的 邻接 链表 中 的 所 有 边 - 
添加 到 优先 队列 之 中 。 

口 将 顶点 2 和 边 0-2 添加 到 最 小 生成 树 
之 中 ,将 边 2-3 和 6-2 添加 到 优先 队 
列 之 中 。 边 2-7 和 1-2 失效 。 

口 将 顶点 3 和 边 2-3 添加 到 最 小 生成 树 
之 中 ; 将 边 3-6 添 加 到 优先 队列 之 中 。 

边 1-3 失效 。 

口 将 顶点 5 和 边 5-7 添加 到 最 小 生成 树 
之 中 , 将 边 4-5 添加 到 优先 队列 之 中 : 

边 1-5 失效 。 图 43.10 Prim 算 法 的 轨迹 ( 延 时 实现 ， 另 见 彩 插 ) 
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口 从 优先 队列 中 删除 失效 的 边 1-3、1-5 和 2-75 

口 将 顶点 4 和 边 4-5 添 加 到 最 小 生成 树 之 中 ,将 边 6-4 添 加 到 优先 队列 之 中 。 边 4-7 和 0- 4 失效 。 
口 从 优先 队列 中 删除 失效 的 边 1-2、4-7 和 0-4。 

口 将 顶点 6 和 边 6-2 添加 到 最 小 生成 树 之 中 ， 和 顶点 6 相关 联 的 其 他 边 均 攻 效 。 

在 添加 了 个 顶点 (以 及 大 1 条 边 ) 之 后 ， 人 \ 生 成 树 就 完成 了 。 优先 队列 中 的 余下 的 边 都 是 


:无 效 的， 不 需要 再 去 检查 它们 。 


4.3.4.3 实现 , 

有 了 这 些 预备 知识 ，Prim 算法 的 实现 就 很 简单 了 ， 请 见 后 面 框 注 “ 最 小 生成 树 的 Prim 算法 的 
延 时 实现 ”中 的 LazyPrimMST 类 。 和 前 两 节 实现 深度 优先 搜索 和 广度 优先 搜索 一 样 ， 实 现 会 在 构 
造 函数 中 计算 图 的 最 小 生成 树 ， 这 样 用例 方 法 就 可 以 用 查询 类 方法 获得 最 小 生成 树 的 各 种 属性 。 我 
们 使 用 了 一 个 私有 方法 Visit0 来 为 树 添 加 一 个 顶点 、 将 它 标记 为 “已 访问 ”并 将 与 它 关 联 的 所 
有 未 失效 的 边 加 入 优先 队列 ， 以 保证 队列 含有 所 有 连接 树 顶点 和 非 树 顶 点 的 边 〔 也 可 能 含有 一 些 已 
经 失效 的 边 ) 。 代 码 的 内 循环 是 算法 的 具体 实现 : 我 们 从 优先 队列 中 取出 一 条 边 并 将 它 添 加 到 树 中 
(如 果 它 还 没有 失效 的 话 ) ， 再 把 这 条 边 的 另 一 个 项 点 也 添加 到 树 中 ， 然 后 用 新 顶点 作为 参数 调用 


”visit0) 方法 来 更 新 横 切 边 的 集合 。weightO] 方法 可 以 遍历 树 的 所 有 边 并 得 到 它们 的 权重 之 和 ( 延 


时 实现 ) 或 是 用 一 个 运行 时 的 变量 统计 总 权重 ( Rs 这 一 点 留 作 练 习 4.3.31。 
4.3.4.4 ”运行 时 间 
Prim 算法 有 多 快 ? 我 们 经 知 着 优先 队列 的 性 所 以 要 回答 这 个 问题 并 不 困难 。 


命题 M。Prim 算法 的 延 对 实现 计算 一 幅 含 有 7 个 顶点 和 已 条 边 的 连通 加 权 无 向 图 的 最 小 生成 村 
所 需 的 空间 与 已 成 正比 ， 所 需 的 时 间 与 ElogE 成 正比 【最 坏 情况 ) 。 


证 明 。 算 法 的 瓶颈 在 于 优先 队列 的 insert() 和 de1Min() 方法 中 比较 边 的 权重 的 次 数 。 优 先 
队列 中 最 多 可 能 有 已 条 边 ， 这 就 是 空间 需求 的 上 限 。 在 最 坏 情况 下 ， 一 次 插入 的 成 本 为 ~ lgE， 
删除 最 小 元 素 的 成 本 为 ~ 2lgE( 请 见 第 2 章 的 命题 O)。 Ob 全 和 删除 巨 次 
最 小 元 素 ， 时 间 上 限 显而易见 。 


在 实际 中 ， 估 计 的 运行 时 间 上 限 是 比较 保守 的 ， 因 为 一 般 情况 下 优先 队列 中 的 边 都 远 小 于 5。 


这 么 困难 的 任务 ， 解 决 方法 却 如 此 的 简单 、 高 效 而 实用 ， 实 在 仿 人 佩服 。 下 面 ， 我 们 会 简要 讨论 一 


站 改进 算法 的 方法 。 和 以 前 一 样 ， 在 性 能 优先 的 应 用 场景 中 仔细 评估 这 些 改进 的 工作 应 该 贸 给 专家 ; 
最 小 生成 树 的 Prim 算法 的 延 时 实现 


public class LazyPrimMST 
{ 





private boolean[] marked; /人 -最 小 生成 树 的 顶点 
private Queue<Edge> mst; // -最 小 生成 树 的 边 
private MinPQ<Edge> pq; //- 灶 切 边 ( 包括 失效 的 边 ) 


public LazyPrimMSTCEdgeweightedGraph GC) 
Kt 和 


pq .= new MinPQ<Edge>O; 

marked = new boolean[G.VO]; 

mst = new Queue<Edge>(); 

visit《G，0); ”// 假设 G 是 连通 的 (请 见 练习 4.3.22) 
while (lpq.isEmpty()) 
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Edge e = pq.delMinO; // 从 pq 中 得 到 权重 最 小 的 边 


int v = e.either(), w = e.other(v);  // 殉 过 失效 的 边 
if (marked[v] && marked[w]) continue; 
mst.enqueue(e); // 将 边 添加 到 树 中 
if (Imarked[v]) visit(G, v); // 将 顶点 (VY 或 W) 添加 到 树 中 
if (1marked[w]) visit(G, w; . 
了 
} 


private void visit(EdgeWeightedGraph G, int v) 
人 // 标记 顶点 v 并 将 所 有 连接 Vv 和 未 被 标记 顶点 的 边 加 入 pq 
marked[v] = true; 
for (Edge e : G.adj(v)) 
if (Imarked[e.otherCv)]) pq-insert(e); 


public Iterable<Edge> edges() 

{ return mst; 

public double weight()  // 请 见 冻 习 4.3.31 
~ 和 


Prim 算法 的 这 种 实现 使 用 了 一 条 优先 队列 来 保存 所 有 的 机 切 边 、 一 个 由 顶点 索引 的 队列 来 标记 树 的 
顶点 以 及 一 条 队列 来 保存 最 小 生成 树 的 边 。 这 种 延 时 实现 会 在 优先 队列 中 保留 失效 的 边 。 








4.3.5 ”Prim 算法 的 即时 实现 .六 
要 改进 LazyPrimMST， 可 以 尝试 从 优先 队列 中 删除 失效 的 





边 ， 这 样 优先 队列 就 只 含有 树 顶点 和 非 树 顶点 之 问 的 横 切 边 ， 

但 其 实 还 可 以 删除 更 多 的 边 。 关 键 在 于 ， 我 们 感 兴趣 的 只 是 连 | 

接 树 顶点 和 非 树 项 点 中 权重 最 小 的 边 。 当 我 们 将 顶点 v 添加 到 

树 中 时 ， 对 于 每 个 非 树 顶点 w 产生 的 变化 只 可 能 使 得 w 到 最 小 

生成 树 的 距离 更 近 了 ， 如 图 4.3.11 所 示 。 简 而 言 之 ， 我 们 不 需 a 
使 得 w 和 树 

其 中 权重 最 小 的 那 条 ， 在 将 v 添加 到 树 中 后 检查 是 否 需要 更 新 的 距离 更 近 了 


这 条 权重 最 小 的 边 〈 因为 v-w 的 权重 可 能 更 小 )-。 我 们 只 需 遍 
历 v 的 邻接 链表 就 可 以 完成 这 个 任务 。 换 句 话说 ， 我 们 只 会 在 
优先 队列 中 保存 每 个 非 树 项 点 w 的 一 条 边 : 将 它 与 树 中 的 顶点 连接 起 来 的 权重 最 小 的 那 条 边 。 将 w 和 
树 的 顶点 连接 起 来 的 其 他 权重 较 大 的 边 迟早 都 会 失效 ， 所 以 没 必要 在 优先 队列 中 保存 它们 。 

PrimMST 类 ( 请 见 算法 47) 使 用 了 2.4 节 中 介绍 的 索引 优先 队列 实现 的 Prim 算法 。 它 将 
LazyPrimMST 中 的 marked[] 和 mst[] 替换 为 两 个 顶点 索引 的 数组 edgeTo[] 和 distTo[]， 它 们 
具有 如 下 性 质 。 

口 如 果 顶 点 v 不 在 树 中 但 至 少 含有 一 条 边 和 树 相 连 ， 那么 edgeTo[v] 是 将 v 和 树 连 接 的 最 短 边 ， 

由 stTo[v] 为 这 条 边 的 权重 。 
二 口 所 有 这 类 顶点 v 都 保存 在 一 条 索引 优先 队列 中 , 索引 v 关 联 的 值 是 edgeTo[v] 的 边 的 权重 。 

这 些 性 质 的 关键 在 于 优先 队列 中 的 最 小 键 即 是 权重 最 小 的 横 切 边 的 权重 ， 而 和 它 相 关联 
的 顶点 v 就 是 下 一 个 将 被 添加 到 树 中 的 顶点 。marked[] 数组 已 经 没有 必要 了 ， 因 为 判断 条 
件 Imarked[w] 等 价 于 distTo[w] 是 无 穷 的 ( 且 edgeTo[w] 为 nu11 ) 。 要 维护 这 些 数据 结构 ， 


图 4.3.11 Prim 算法 的 即时 实现 
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PrimMST 会 从 优先 队列 中 取出 一 条 边 v 
并 检查 它 的 邻接 链表 中 的 每 条 边 v-w。 
如 果 w 已 经 被 标记 过 ， 那 么 这 条 边 就 
已 经 失效 了 ; 如果 w 不 在 优先 队列 中 
或 者 v-w 的 权重 小 于 目前 已 知 的 最 小 
值 edgeTo[w] ， 代 码 会 更 新 数组 ， 将 
v-w 作为 将 v 和 树 连接 的 最 佳 选择 。 

图 4.3.12 所 示 的 是 PrimMST 在 处 理 
样 图 tinyEWG.txt 过 程 中 的 轨迹 。 将 每 
个 顶点 加 入 最 小 生成 树 之 后 ，edgeTo[] 
和 distTo[] 的 内 容 显示 在 右 侧 ， 不 同 
的 颜色 显示 了 最 小 生成 树 中 的 顶点 ( 索 
引 为 黑色 ) 、 非 最 小 生成 树 的 顶点 〈( 索 
引 为 灰色 ) 、 最 小 生成 树 的 边 ( 黑色 ) 
和 优先 队列 中 的 索引 值 对 ( 红色 ) 。 在 
示意 图 中 ， 将 每 个 非 最 小 生成 树 顶 点 连 
接 到 树 的 最 短 边 为 红色 。 该 算法 向 最 小 
生成 树 中 添加 的 边 的 顺序 和 延 时 版 本 相 
同 , 不同 之 处 在 于 优先 队列 的 操作 。 它 
构造 最 小 生成 树 的 过 程 如 下 所 述 。 

口 将 顶点 0 添加 到 最 小 生成 树 之 

中 , 将 它 的 邻接 链表 中 的 所 有 边 
添加 到 优先 队列 之 中 ， 因 为 这 些 
边 都 是 目前 ( 唯一 ) 已 知 的 连接 
非 树 顶点 和 树 顶 点 的 最 短 边 。 

口 将 顶点 7 和 边 0-7 添加 到 最 小 生 
成 树 之 中 ,将 边 1-7 和 5-7 添加 
到 优先 队列 之 中 。 边 4-7 和 2-7 
不 会 影响 到 优先 队列 ， 因 为 它们 
的 权重 分 别 都 大 于 连接 项 点 2 和 
4 与 最 小 生成 树 的 最 小 边 。 

口 将 顶点 1 和 边 1-7 添加 到 最 小 生 
成 树 之 中 ,将 边 1-3 添加 到 优先 
队列 之 中 。 

口 将 顶点 2 和 边 0-2 添加 到 最 小 生 
成 树 之 中 ， 将 连接 项 点 6 与 树 的 
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4.3.12 ”Prim 算法 的 轨迹 (即时 版 本 ， 


最 小 边 由 0-6 替换 为 2-6， 将 连接 顶点 3 与 树 的 最 小 边 由 1-3 替换 为 2-3。 
口 将 顶点 3 和 边 2-3 添加 到 最 小 生成 树 之 中 。 





口 将 项 


口 将 顶点 4 和 边 4-5 添加 到 最 小 生成 树 之 中 。 


edgeTo[] distTo[] 
0 


2 0- 0.26 
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7 0-7 0.16 
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1 1-7 0.19 
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3 1- 0.29 
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0 

1 1-7 0.19 
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2 0-2 0.26 
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4 -5 0.35 <— 
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4 4-5 0.35 
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7 0-7 0.16 
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5 和 边 5-7 添加 到 最 小 生成 树 之 中 , 将 连接 顶点 4 与 树 的 最 小 边 由 0-4 替换 为 4-5。 


口 将 顶点 6 和 边 6-2 添加 到 最 小 生成 树 之 中 。 
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添加 了 1 条 边 之 后 ， 最 小 生成 树 完成 上 且 优 先 队 列 为 空 。 0 
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算法 4.7 最 小 生成 树 的 Prim 算法 (即时 版 本 ) 
public class PrimMST 
二 
private Edge[] edgeTo; // 距离 树 最 近 的 边 
private double[] distTo; // distTo[w]=edgeTo[w] .weight() 
private boolean[] marked; // 如 果 V 在 树 中 则 为 rue 
private IndexMinPQ<Double> pq; // 有 效 的 横 切 边 
public PrimMST(EdgeweightedGraph G) 
. 
edgeTo = new Edge[G.VO]; 
distTo = new double[G.VO]; 
marked = new boolean[G.VO]; 
for (int v = 0; v < G.VO; v++) 
distTo[v] = Double.POSITIVE_INFINITY; 
pq = new IndexMinPQ<Double>(G.VO); 
distTo[0] = 0.0; 
pq.insert(0, 0. // 用 顶点 0 和 权重 0 初始 化 pq 
while (Ipq.isEmpty()) 
Visit(G, pq.delMinO)); // 将 最 近 的 顶点 添加 到 树 中 
private void visit(EdgeweightedGraph G, int v) 
{ /1/ 将 顶点 v 汪 加 到 树 中 ， 更 新 数据 
marked[v] = true; 
for (Edge e : G.adj(v)) 
{ 
int w = e.other(v); 
if (marked[w]) continue; // v-w 失 效 
if (e.weight() < distTo[w]) 
{。// 连接 Ww 和 树 的 最 佳 边 Edge 变 为 e 
edgeTo[w] = e; 
distTo[w] = e.weight(O); 
if (pq.contains(w)) pq.change(w, distTo[w]); 
else pq.insert(w, distTo[w]); 
} 
} 
} 
public Iterable<Edge> edges()  // 请 见 练习 4321 
public double weight() // 请 见 练习 4.3.31 
» 
这 份 Prim 算法 的 实现 将 所 有 有 效 的 横 切 边 保存 在 了 一 条 索引 优先 队列 中 。 62 

















该 算法 的 证 明 与 命题 M 的 证 明 本 质 上 相同 ，Prim 算法 的 即时 版 本 可 以 找到 一 幅 连 通 的 加 权 无 
向 图 的 最 小 生成 树 ， 所 需 时 间 和 已 ogF 成 正比 ， 空 间 和 成 正比 (请 见 命题 N) 。 对 于 实际 应 用 中 
经 常 出 现 的 巨型 稀 朴 图 ， 两 者 在 时 间 上 限 上 没有 什么 区 别 ( 因为 对 于 稀疏 图 来 说 是 lgE ~ lgV) ， 
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但 空间 上 限 变 为 了 原来 的 一 个 常数 因子 ( 但 很 显著 ) 。 在 性 能 优先 的 应 用 场景 中 ， 更 加 深入 的 分 析 
和 实验 最 好 还 是 留 给 专家 吧 , 因为 相关 的 因素 有 很 多 ,例如 MinPQ 和 IndexPQ 的 实现 、 图 的 表示 方法 、 
应 用 场景 所 使 用 的 图 模型 等 。 按 照 惯 例 ， 我 们 需要 仔细 研究 这 些 改进 ， 因 为 只 有 当 这 种 常数 因子 的 
性 能 改进 非常 必要 时 ， 它 所 带 来 的 代码 复杂 性 才 是 值得 的 。 在 复杂 的 现代 系统 中 有 时 这 样 做 甚至 会 
得 不 偿 失 。 





命题 N。Prim 算法 的 即时 实现 计算 一 幅 含 有 VV 个 顶点 和 碧 条 边 的 连通 加 权 无 向 图 的 最 小 生成 树 
所 需 的 空间 和 洲 成 正比 ， 所 需 的 时 间 和 ElogV 成 正比 ( 最 坏 情况 ) 。 


证 明 。 因 为 优先 队列 中 的 边 数 最 多 为 Y， 且 使 用 了 三 条 由 顶点 索引 的 数组 ， 所 以 所 需 空间 的 上 
限 和 作成 正比 。 算 法 会 进行 次 插入 操作 ,VV 次 删除 最 小 元 素 的 操作 和 ( 在 最 坏 情况 下 ) 已 次 
政变 优先 级 的 操作 。 已 知 在 基于 堆 实 现 中 的 案 引 优先 队列 中 所 有 这 些 操作 的 增长 数量 级 为 logV 
(请 见 第 2 章 命题 Q) ， 所 以 将 所 有 这 些 加 起 来 可 知 算法 所 需 时 间 和 ElogV 成 正比 。 


图 4.3.13 展示 了 Prim 算法 是 如 何 处 理 含有 250 个 顶点 的 欧 拉 图 mediumEWG.txt 的 。 这 是 

-个 很 有 意思 的 动态 过 程 ( 请 见 练习 4.3.27) 。 大 多 数 情况 下 ， 树 的 生长 都 是 通过 连接 一 个 和 

新 加 入 的 顶点 相 邻 的 顶点 。 当 新 加 入 的 顶点 周围 没有 非 树 顶点 时 ， 树 的 生长 又 会 从 另 一 部 分 
开始 。 


A 训 


图 4.3.13 Prim 算法 (250 个 顶点 ) 


4.3.6 ”Kruskal 算法 


我 们 要 仔细 学 习 的 第 二 种 最 小 生成 树 算法 的 主要 思想 是 按照 边 的 权重 顺序 ( 从 小 到 大 ) 处 理 它们 ， 
将 边 加 入 最 小 生成 树 中 ( 图 中 的 黑色 边 ) ， 加 入 的 边 不 会 与 已 经 加 入 的 边 构成 环 ， 直 到 树 中 含有 大 1 
条 边 为 止 。 这 些 黑色 的 边 逐 渐 由 一 片 森林 合并 为 一 棵 树 ， 也 就 是 图 的 最 小 生成 树 。 这 种 计算 方法 被 称 为 
Kmuskal 算法 。 
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SG 命题 O。Kruskal i - 
© 的 最 小 生成 树 。 “ 


© 证 明 。 由 命题 久 可 知 ， A 
让 条 将要 外 加 和 最 小 生成 树 中 的 边 不 会 和 已 有 的 黑色 这 构成 环 ， 

华 SK ”于 么 它 训 跨越 了 由 所 有 和 树 顶 点 相信 的 顶点 组 
成 的 集合 以 及 它们 的 补 集 所 构成 的 一 个 切 分 。 

接 权 重 失 因为 加 入 的 这 条 边 不 会 形成 环 、 它 是 目前 已 知 
Go 一 8 本 的 唯一 一 条 模 切 边 且 是 按照 权重 顺序 选择 的 边 ， 
的 边 ( 轩 色 ) | 所 以 它 必 然 是 权重 最 小 的 横 切 边 。 因 此 ， 该 算 

法 能 够 连续 选择 权重 最 小 的 横 切 这 ， 和 贪心 第 





.16 
.17 法 一 致 。 
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0-7 0 
2-3 0 
© 4 8 : 62 hs 2 
5-7 0.28 Prim 算 法 是 一 条 边 一 条 边 地 来 构造 最 小 生成 树 ， 
© 每 一 步 都 为 一 棵 树 添加 一 条 边 。Kruskal 算法 构造 最 
4-5 0.35 小 生成 树 的 时 候 也 是 一 条 边 一 条 边 地 构造 ， 但 不 同 的 
是 它 寻找 的 边 会 连接 一 片 森林 中 的 两 棵 树 。 我 们 从 一 
片 由 达 棵 单项 点 的 树 构成 的 森林 开始 并 不 断 将 两 棵 树 
会 并 (用 可 以 找到 的 最 短 边 ) 直到 只 剩 下 一 棵 树 ， 它 


6-2 0.407 






就 是 最 小 生成 树 。 
Rm Se - 图 4.3.14 显示 的 是 Kruskal 算法 处 理 tinyEWGitxt 
时 的 每 一 个 步 台 。 首 先 ， 权 重 最 小 的 条 边 都 被 加 入 到 
© 了 最 小 生成 树 中 ， 之 后 算法 判断 出 1-3、1-5 和 2-7 
已 经 失效 并 将 4-5 加 入 最 小 生成 树 。 最 后 1-2: 4-7 
Sh 和 1-4 失效 ，6-2 被 加 入 最 小 生成 树 。 


I 有 了 本 书 中 我 们 已 经 学 习 过 的 许多 工具 ， 
“Kruskal 算法 的 实现 并 不 困难 : 我 们 将 会 使 用 一 条 优 

2 先 队列 ( 请 见 2.4 节 ) 来 将 边 按照 权重 排序 ， 用 一 
“个 union-find 数据 结构 (请 见 1.5 节 ) 来 识别 会 形成 
了 环 的 边 ,以 及 一 条 队列 (请 见 1.3 节 ) 来 保存 最 小 

二 二 -生成 树 的 所 有 边 。 算 法 4.8 实现 了 以 上 设想 。 注 意 ， 
. 使 用 队列 来 保存 最 小 生成 树 的 所 有 边 意味 着 用 例 在 
”时 4314 Km 算法 的 轨迹 ( 另 见 彩 揪 ) ” “遍历 时 将 会 按照 权重 的 升序 得 到 这 些 边 。 weight() 
方法 需要 遍历 所 有 边 来 取得 权重 之 和 ( 或 是 使 用 一 个 变量 动态 统计 权重 之 和 ) ， 它 的 实现 留 作 练 

习 (请 见 练习 4.3.31) 
分 析 Kruskal 算法 所 需 的 运行 时 间 很 简单 ， 因 为 我 们 已 经 知道 它 的 操作 所 需 的 时 间 。 


cal 算法 的 计算 一 幅 合 有 V 个 顶点 和 玉 条 边 的 连通 加 权 无 向 图 的 最 小 生成 
所 需 的 时 间 和 ElogE 成 正比 【最 坏 情况 ) 。 
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证 明 。 算 法 的 实现 在 构造 函数 中 使 用 所 有 边 初 始 化 优先 队列 ， 成 本 最 多 为 次 比较 (请 见 2.4 
节 )。 优 先 队列 构造 完成 后 , 其 余 的 部 分 和 Prim 算法 完全 相同 。 优 先 队列 中 最 多 可 能 含有 已 条 边 ， 
即 所 需 空间 的 上 限 。 每 次 操作 的 成 本 最 多 为 21gE 次 比较 ， 这 就 是 时 间 上 限 的 由 来 。Kruskal 算 
法 最 多 还 会 进行 E 次 Connected() 入 次 union() 操作 ， 但 这 些 成 本 相 比 ElogE 的 总 时 间 的 
增长 数量 级 可 以 忽略 不 计 (请 见 1.5 节 ) 。 


与 Prim 算法 一 样 ， 这 个 估计 是 比较 保守 的 ， 因 为 算法 在 找到 -1 条 边 之 后 就 会 终止 。 实 际 的 
成 本 应 该 与 EtEologE 成 正比 ， 其 中 为 是 权重 小 于 最 小 生成 树 中 权重 最 大 的 边 的 所 有 边 的 总 数 。 尽 
624| 管 拥有 这 个 优势 ，Kruskal 算法 一 般 还 是 比 Prim 算法 要 慢 ， 因 为 在 处 理 每 条 边 时 除了 两 种 算法 都 要 
625| 完成 的 优先 队列 操作 之 外 ， 它 还 需要 进行 一 次 connect() 操作 (请 见 练习 4.3.39 ) 。 
图 4.3.15 所 示 为 Kruskal 算法 在 处 理 较 大 的 样 图 mediumEWG-.txt 时 的 动态 情况 。 很 显然 ， 边 是 
按照 权重 顺序 被 添加 到 森林 中 的 。 
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26 图 4.3.15 ”Kruskal 算法 (250 个 顶点 ) 
算法 4.8 ”最 小 生成 树 的 Kruskal 算法 
public class KruskalMST 
{ 
private Queue<Edge> mst; 
public KruskalMST(EdgeWeightedGraph GJ 
mt 
mst = new Queue<Edge>O); 
MinPQ<Edge> pq -= new MinPQ<Edge>(G.edges()); 
UF uf = new UF(G.VO); 
2 while (!pq.isEmpty() && mst.sizeO < G.VO-D 
Ne > 
Edge e ~ pq.delMinO; - //_ 从 pq 得 到 权重 最 小 的 边 和 它 的 顶点 


int Vv = e.either(), w = e-otherkv); 
if (uf.connected(v，w)).continue; . // 忽略 失效 的 边 
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uf.unionCv, ws // 合并 分 本 - 
mst.enqueue(e); // 苦 边 添加 到 最 小 生成 树 中 
} 


public Iterable<Edgey edges() 
{ return mst; } 


public double weight() 77 请 见 练习 43.31 
} 


- 这 份 Kruskal 算法 的 实现 使 用 了 一 条 队列 来 保 a 
。 存 最 小 生成 树 中 的 所 有 边 、 一 条 优先 队列 玉 保 存 还 % java Kruska1MST tinyEWGstxt 


.未 被 检查 的 边 和 一 个 union-find 的 数据 结构 来 判断 无 ， 2-3 0.17 
效 的 边 。 最 小 生成 树 的 所 有 边 会 按照 权重 的 升序 返 7 党 
回 给 用 例 。weight 0) 方法 的 实现 留 作 练习 。 527 0 .28 
4-5 0.35 
6-2 0.40 

1.81 








4.3.7 展望 

最 小 生成 树 问 题 是 本 书 中 的 被 研究 的 最 多 的 几 个 问题 之 一 。 解决 这 个 问题 的 基本 方法 在 现代 数 
据 结构 和 算法 性 能 分 析 手 段 的 发 明之 前 就 已 经 问世 了 。 在 当时 ， 计算 一 幅 含 有 上 千 条 边 的 图 的 最 小 
生成 树 还 是 一 项 令 人 望 而 生 恨 的 任务 。 我 们 学 习 的 最 小 生成 树 算法 和 这 些 老式 方法 的 不 同 之 处 主要 
在 于 运用 了 现代 的 数据 结构 来 完成 一 些 基本 的 操作 ， 这 ( 再 加 上 现代 的 计算 能 力 ) 使 得 我 们 可 以 计 “ 
算 含 有 上 百 万 甚至 数 十 亿 条 边 的 图 的 最 小 生成 树 。 和 ' 
4.3.7.1 历史 资料 

.计算 稠密 图 的 最 小 生成 树 算法 ( 请 见 练习 4.3.29 ) 最 早 是 由 Rprim 在 1961 年 发 明 的 ， 随 . 

后 E.W.Dijkstra 也 独自 发 明了 它 。 尽 管 Dijkstra 的 描述 更 为 通用 ， 但 这 个 算法 通常 被 称 为 Prim 算 
法 。 其 实 算法 的 基本 思想 是 VJamik 在 1939 年 发 明 的 ， 所 以 一 些 人 也 将 这 种 方法 称 为 Jamik 算法 
并 认为 Prim 的 ( 或 是 Dijkstra ) 的 贡献 在 于 为 稠密 图 找到 了 高 效 的 实现 算法 。 在 20 世纪 70 年 代 
优先 队列 发 明之 后 ， 它 直接 被 应 用 在 了 寻找 稀疏 图 中 的 最 小 生成 树 上 。 计算 稀疏 图 中 的 最 小 生成 
树 所 需 的 时 间 和 ElogE 成 正比 很 快 广为人知 且 并 没有 将 此 归功 于 任何 一 位 研究 者 。 在 1984 年 ， 
M.L.Fredman 和 R.E.Tarjan 发 明了 数据 结构 斐 波 纳 契 堆 ， 将 Prim 算法 所 需 的 运行 时 间 在 理论 上 改 
进 到 了 E+ViogV。J.Kruskal 在 1956 年 就 发 表 了 他 的 算法 ， 但 同样 ， 相关 的 抽象 数据 结构 在 很 多 年 
中 都 没有 被 仔细 研究 。 有 趣 的 是 ，Kmuskal 的 论文 中 提 到 了 -Prim 算法 的 一 个 变种 ， 而 O.Boruvka 
在 1926 年 (! ) 的 论文 中 就 已 经 提 到 了 这 两 种 不 同 的 方法 。Boruvka 的 论文 要 解决 的 是 一 个 电 
力 分 配 的 问题 并 介绍 了 另外 一 种 用 现代 数据 结构 可 以 轻易 实现 的 方法 ( 请 见 练习 4.3.43 和 练习 
4.3.44 ) 。M.Sollin 在 1961 年 重新 发 现 了 这 个 方法 。 该 方法 随后 引起 了 其 他 人 的 注意 并 成 为 实现 较 
好 的 渐进 性 能 的 最 小 生成 树 算法 和 平行 最 小 生成 树 算 法 的 基础 。 各 种 最 小 生成 树 算法 的 特点 请 见 
表 4.3.5。 站 
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表 4.3.5 各 种 最 小 生成 树 算法 的 性 能 特点 
V 个 项 点 E 条 边 ， 最 坏 情况 下 的 增长 数量 级 





算 法 





空 “ 间 时 间 
延 时 的 Prim 算法 E ElogE 
即时 的 Prim 算法 V Elogy 
Kruskal E ElogE 
Fredman-Tarjan v EtViogy 
Chazelle V 非常 接近 但 还 没有 达到 EE 
理想 情况 V E? 





628| 











4.3.7.2 ”线性 的 最 小 生成 树 算法 ? 

一 方面 ， 目 前 还 没有 理论 能 够 证 明 ， 不 存在 能 在 线性 时 间 内 得 到 任意 图 的 最 小 生成 树 的 算法 。 
另 一 方面 ， 发 明 能 够 在 线性 时 间 内 计算 稀疏 图 的 最 小 生成 树 的 算法 仍然 没有 进展 。 自 从 20 世纪 70 
年 代 将 union-find 数据 结构 应 用 于 Kruskal 算法 以 及 将 优先 队列 应 用 于 Prim 算法 之 后 ， 更 好 的 实现 
这 些 抽象 数据 结构 就 成 了 许多 研究 者 的 主要 目标 。 许 多 研究 者 都 将 寻找 高 效 的 优先 队列 的 实现 作为 
找到 稀疏 图 的 高 效 的 最 小 生成 树 算法 的 关键 ， 而 其 他 一 些 人 则 研究 了 Boruvka 算法 的 一 些 变种 并 将 
它们 作为 近似 于 线性 级 别 的 稀疏 图 的 最 小 生成 树 算法 的 基础 。 这 些 研究 仍然 有 希望 最 终 为 我 们 带 来 
一 个 实用 的 线性 最 小 生成 树 算法 ， 它 们 甚至 已 经 显示 了 一 个 线性 时 间 的 随机 化 算法 的 存在 性 。 研 究 
者 距离 线性 时 间 的 目标 已 经 很 近 了 : B.Chazelle 在 1997 年 发 表 了 一 个 算法 ， 它 在 实际 应 用 中 和 线性 
时 间 的 算法 的 差距 已 经 小 到 了 无 法 区 别 的 程度 ( 尽管 可 以 证 明 它 并 不 是 线性 的 ) ， 但 它 非常 复杂 以 
至 于 无 法 实用 。 尽 管 此 类 研究 得 到 的 算法 大 都 十 分 复杂 , 其 中 一 些 的 简化 版 也 许可 以 进入 实际 应 用 。 
同时 ， 在 大 多 数 应 用 场景 中 ， 我 们 都 可 以 使 用 已 经 学 过 的 基本 方法 在 线性 时 间 内 得 到 图 的 最 小 生成 
树 ， 只 是 对 于 一 些 稀疏 图 所 需 的 时 间 要 乘 以 logy。 

总 的 来 说 ， 我 们 可 以 认为 在 实际 应 用 中 最 小 生成 树 问 题 已 经 被 “解决 ”了 。 对 于 大 多 数 的 图 来 
说 ， 找 到 它 的 最 小 生成 树 的 成 本 只 比 饥 历 图 的 所 有 边 稍 高 一 点 。 除 了 极为 稀 朴 的 图 ， 这 一 点 都 能 成 
立 ， 但 即使 是 在 这 种 情况 下 ， 使 用 最 好 的 算法 所 能 得 到 的 性 能 提升 也 不 过 是 一 个 很 小 的 常数 因子 ， 
可 能 最 多 10 倍 。 人 们 已 经 在 许多 图 的 模型 中 证 明了 这 些 结论 ， 而 很 多 实践 者 则 已 经 使 用 Prim 算法 





629| 


和 Kruskal 算法 计算 大 型 图 中 的 最 小 生成 树 数 十 年 之 久 了 。 





围 各 去 


间 Prim 和 Kruskal 算法 能 够 处 理 有 向 图 吗 ? 
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答 不行， 不 可 能 。 那 是 一 个 更 加 困难 的 有 向 图 处 理 问题 ， 叫 做 最 小 树 形 图 问题 。 





转 疆 
4.3.1 证 明 可 以 将 图 中 的 所 有 边 的 权重 都 加 上 一 个 正常 数 或 是 都 乘 以 一 个 正常 数 ， 
图 的 最 小 生成 树 不 会 受到 影响 。 
4.3.2 画 出 图 4.3.16 中 的 所 有 最 小 生成 树 ( 所 有 边 的 权重 均 相 等 ) 。 
4.3.3 证 明 当 图 中 所 有 边 的 权重 均 不 相同 时 图 的 最 小 生成 树 是 唯一 的 。 
4.3.4 证 明 或 给 出 反例 : 仅 当 加 权 无 向 图 中 所 有 边 的 权重 均 不 相同 时 图 的 最 小 生成 
树 是 唯一 的 。 
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4.3.5 证 明 即 使 存在 权重 相同 的 边 贪心 算法 仍然 有 效 。 
4.3.6 ”从 tinyEWG.txt 中 (请 见 图 4.3.1 ) 删 去 顶点 7 并 给 出 加 权 图 的 最 小 生成 树 。 
4.3.7 ”如 何 得 到 一 幅 加 权 图 的 最 大 生成 树 ? 
4.3.8 证 明 环 的 性 质 : 任 取 一 幅 加 权 图 中 的 一 个 环 ( 边 的 权重 各 不 相同 ) ， 环 中 权重 最 大 的 边 必然 不 属 
于 图 的 最 小 生成 树 。 
4.3.9 根据 Graph 中 的 构造 函数 ( 请 见 4.1.22 框 注 “Graph 数据 类 型 ”) 为 Edgeweighted Graph 实现 
一 个 相应 构造 函数 ， 从 输入 流 中 读 取 一 幅 图 。 
4.3.10 为 稠密 图 实现 EdgeweightedGraph, 使 用 邻接 矩阵 ( 存储 权重 的 二 维 数组 ) , 不 允许 存在 平行 边 。 
4.3.11 使 用 14 节 中 的 内 存 使 用 模型 评估 用 EdgeweightedGraph 表示 一 幅 含 有 个 顶点 和 巨 条 边 的 图 
所 需 的 内 存 。 
4.3.12 假设 加 权 图 中 的 所 有 边 的 权重 都 不 相同 ， 其 中 权重 最 小 的 边 一 定 属于 图 的 最 小 生成 树 吗 ? 权重 
最 大 的 边 可 能 属于 图 的 最 小 生成 树 吗 ? 任意 环 中 的 权重 最 小 边 都 属于 图 的 最 小 生成 树 吗 ? 证 明 
你 的 每 个 回答 或 者 给 出 相应 的 反例 。 
4.3.13 给 出 一 个 反例 证 明 以 下 策略 不 一 定 能 够 找到 图 的 最 小 生成 树 : 首先 以 任意 顶点 作为 图 的 最 小 生 
成 树 ， 然 后 向 树 中 添加 Vy-1 条 边 ， 每 次 总 是 添加 依附 于 最 近 加 入 最 小 生成 树 的 顶点 的 所 有 边 中 [631 
的 权重 最 小 者 。 
4.3.14 给 定 一 幅 加 权 图 G 以 及 它 的 最 小 生成 树 。 从 G 中 删 去 一 条 边 且 G 仍然 是 连通 的 ， 如 何在 与 成 
正比 的 时 间 内 找到 新 图 的 最 小 生成 树 。 
4.3.15 给 定 一 幅 加 权 图 G 以 及 它 的 最 小 生成 树 。 向 G 中 添加 一 条 边 。， 如 何在 与 /成 正比 的 时 间 内 找 
到 新 图 的 最 小 生成 树 。 
4.3.16 给 定 一 帐 加 权 图 G 以 及 它 的 最 小 生成 树 。 向 G 中 添加 一 条 边 e， 编 写 一 段 程序 找到 e 的 权重 在 
什么 范围 之 内 才 会 被 加 入 最 小 生成 树 。 
4.3.17 为 EdgeweightedGraph 类 实现 toString() 方法 。 
4.3.18 给 出 使 用 延 时 Prim 算法 、 即 时 Prim 算法 和 Kruskal 算法 在 计算 练习 4.3.6 中 的 图 的 最 小 生成 树 
过 程 中 的 轨迹 。 
4.3.19 假设 你 使 用 的 优先 队列 的 实现 会 维护 一 条 有 序 链表 。 在 最 坏 情况 下 ， 用 Prim 算法 和 Kruskal 算 
法 处 理 一 幅 含 有 个 顶点 和 条 边 的 加 权 图 的 时 间 增 长 数量 级 是 多 少 ? 这 种 方法 适用 于 什么 情 
况 ? 证 明 你 的 结论 。 
4.3.20 真 假 判 断 : 在 Kruskal 算法 的 执行 过 程 中 ， 最 小 生成 树 中 的 每 个 顶点 到 它 的 子 树 中 的 某 个 顶点 的 
距离 比 到 非 子 树 中 的 任意 顶点 都 近 。 证 明 你 的 结论 。 
4.3.21 为 PrimMST 类 (请 见 算法 4.7 ) 实现 edges() 方法 。 
解答 : 


public Iterable<Edge> edgesO) 
{ 














Bag<Edge> mst = new Bag<Edge>(); 
for (int v = 1; v < edgeTo.1length; v++) 
mst.add(edgeTo[v]); 
return mst; 
} 632 
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4.3.24 


4.3.25 


4.3.26 


4.3.27 


4.3.28 
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最 小 生成 森林 。 开 发 新 版 本 的 Prim 算法 和 Kruskal 算法 来 计算 一 幅 加 权 图 的 最 小 生成 森林 ， 图 
不 一 定 是 连通 的 。 使 用 4.1 节 中 连通 分 量 的 API 并 找到 每 个 连通 分 量 的 最 小 生成 树 。 

Vyssotsky 算法 。 开 发 一 种 不 断 使 用 环 的 性 质 ( 请 见 练习 4.3.8 ) 来 计算 最 小 生成 树 的 算法 : 每 次 
将 一 条 边 添加 到 假设 的 最 小 生成 树 中 ， 如 果 形 成 了 一 个 环 则 删 去 环 中 权重 最 大 的 边 。 注 意 : 这 
个 算法 不 如 我 们 学 过 的 几 种 方法 引 人 注 意 ， 因 为 很 难 找到 一 种 数据 结构 能 够 有 效 支持 “删除 环 
中 权重 最 大 的 边 ” 的 操作 。 

逆向 删除 算法 。 实 现 以 下 计算 最 小 生成 树 的 算法 : 开始 时 图 含有 原 图 的 所 有 边 ， 然 后 按照 权重 
大 小 的 降序 排列 遍历 所 有 的 边 。 对 于 每 条 边 ， 如 果 删 除 它 图 仍然 是 连通 的 ， 那 就 删 掉 它 。 证 明 
这 种 方法 可 以 得 到 图 的 最 小 生成 树 。 实 现 中 加 权 边 的 比较 次 数 增长 的 数量 级 是 多 少 ? 

最 坏 情况 生成 器 。 开 发 一 个 加 权 图 生成 器 ， 图 中 含有 个 顶点 和 已 条 边 ， 使 得 延 时 的 Prim 算法 
所 需 的 运行 时 间 是 非 线性 的 。 对 于 即时 的 Prim 算法 回答 相同 的 问题 。 

关键 边 。 关 键 边 指 的 是 图 的 最 小 生成 树 中 的 某 一 条 边 ， 如 果 删 除 它 ， 新 图 的 最 小 生成 树 的 总 权重 
将 会 大 于 原 最 小 生成 树 的 总 权重 。 找 到 在 ElogE 时 间 内 找 出 图 的 关键 边 的 算法 。 注 意 ; 这 个 问题 
中 边 的 权重 并 不 一 定 各 不 相同 ( 否则 最 小 生成 树 中 的 所 有 边 都 是 关键 边 ) 。 

动画 。 编 写 一 段 程序 将 最 小 生成 树 算法 用 动画 表现 出 来 。 用 程序 处 理 mediumEWG.txt 来 产生 类 
似 于 图 4.3.12 和 图 4.3.14 的 示意 图 。 

空间 最 优 的 数据 结构 。 实 现 另 一 个 版 本 的 延 时 Prim 算法 ， 在 EdgeweightedGraph 和 MinPQ 中 
使 用 低级 数据 结构 代替 Bag 和 Edge 来 节省 空间 。 根 据 1.4 节 中 的 内 存 使 用 模型 用 一 个 V 和 E 的 
函数 评估 节省 的 内 存 总 量 ( 参考 练习 4.3.11 ) 。 

稠密 图 。 实 现 另 一 个 版 本 的 Prim 算法 ， 即 时 ( 但 不 使 用 优先 队列 ) 且 能 够 在 天 次 加 权 边 比较 之 
内 得 到 最 小 生成 树 。 

欧 拉 加 权 图 。 修 改 你 为 练习 4137 给 出 的 解答 ， 为 平面 图 创建 一 份 APF- 一 Euclidean 
EdgeweightedGraph， 这 样 你 就 能 够 处 理 用 图 形 表示 的 图 了 。 

最 小 生成 树 的 权重 。 为 LazyPrimMST、PrimMST 和 KruskalMST 实现 weight() 方法 ， 使 用 延 时 
策略 ， 只 在 被 调用 时 才 遍 历 最 小 生成 树 的 所 有 边 来 计算 总 权重 。 然 后 用 即时 策略 再 次 实现 这 个 
方法 ， 在 计算 最 小 生成 树 的 过 程 中 维护 一 个 动态 的 总 权重 。 

指定 的 集合 。 给 定 一 幅 连 通 的 加 权 图 G 和 一 个 边 的 集合 5 ( 不 含 环 ) ， 给 出 一 种 算法 得 到 含有 5 
中 的 所 有 边 的 最 小 加 权 生 成 树 。 

验证 。 编 写 一 个 使 用 最 小 生成 树 算法 以 及 EdgeweightedGraph 类 的 方法 check()， 使 用 以 下 根 
据 命题 了 得 到 的 最 优 切 分 条 件 来 验证 给 定 的 一 组 边 就 是 一 棵 最 小 生成 树 : 如 果 给 定 的 一 组 边 是 一 
棵 最 小 生成 树 ， 且 删除 树 中 的 任意 边 得 到 的 切 分 中 权重 最 小 的 横 切 边 正 是 被 删除 的 那 条 边 ， 则 
这 最 小 生成 一 组 边 就 是 图 的 最 小 生成 树 。 你 的 方法 的 运行 时 间 的 增长 数量 级 是 多 少 ? 


随机 夭 玖 加 权 图 。 基于 你 为 练习 4.1.41 给 出 的 解答 编写 一 个 随机 稀疏 加 权 图 生成 器 。 在 赋予 边 
的 权重 时 , 定义 一 个 随机 加 权 有 向 图 的 抽象 数据 结构 并 给 出 两 种 实现 : 一 种 按 均匀 分 布 生成 权重 ， 
另 一 种 按 高 斯 分 布 生成 权重 。 编 写 用 例 程序 ， 用 两 种 权重 分 布 和 一 组 精心 挑选 过 的 六 和 的 值 
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生成 随机 的 稀 芍 加 权 图 ， 使 得 我 们 可 以 用 它 对 权重 的 各 种 分 布 进行 有 意义 的 经 验 性 测试 。 
随机 欧 拉 加 权 图 。 修 改 你 为 练习 4.1.42 给 出 的 解答 ， 将 每 条 边 的 权重 设 为 顶点 之 间 的 距离 。 
随机 网 格 加 权 图 。 修 改 你 为 练习 4.1.43 给 出 的 解答 ,将 每 条 边 的 权重 设 为 0 到 1 之 间 的 随机 值 。 
真实 世界 中 的 加 权 图 。 从 网 上 找 出 一 幅 巨 型 加 权 无 向 图 一 一 可 以 是 标注 了 距离 的 地 图 ， 或 是 标 
明了 资费 的 电话 黄页 ， 或 是 航线 的 价目 表 。 编 写 一 段 程序 RandomRea1EdgeweightedGraph， 从 
这 些 顶 点 构成 的 子 图 中 随机 选取 个 项 点， 然后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 已 条 边 来 
构造 一 幅 图 。 

测试 所 有 的 算法 并 研究 所 有 图 的 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 段 
程序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模型 进行 
实验 。 你 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结 果 以 及 由 此 得 出 的 任 
何 结论 。 

延 时 的 代价 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 比较 Prim 算法 的 延 时 版 本 和 即时 版 本 的 
对 比 Prim 算法 与 Kruskal 算法 。 运 行 实验 并 根据 经 验 比较 Prim 算法 的 延 时 版 本 和 即时 版 本 与 
Kruskal 算法 的 性 能 差异 。 

减少 开销 。 运 行 实验 并 根据 经 验 判断 练习 4.3.28 中 在 EdgeWeightedGraph 类 中 使 用 原始 数据 类 
型 代替 Edge 所 带 来 的 效果 。 

最 小 生成 树 中 的 最 长 边 。 运 行 实验 并 根据 经 验 分 析 最 小 生成 树 中 最 长 边 的 长 度 以 及 图 中 不 长 于 
该 边 的 边 的 总 数 。 

切 分 。 根 据 快 速 排序 的 切 分 思想 ( 而 非 使 用 优先 队列 ) 实现 一 种 新 方法 ， 检 查 Kruskal 算法 中 的 
当前 边 是 否 属于 最 小 生成 树 。 

Boruvka 工法 。 实 现 Boruvka 算法 : 和 Kmuskal 算法 类 似 ， 只 是 分 阶段 地 向 一 组 森林 中 逐渐 添加 
边 来 构造 一 棵 最 小 生成 树 。 在 每 个 阶段 中 ， 找 出 所 有 连接 两 棵 不 同 的 树 的 权重 最 小 的 边 ， 并 将 
它们 全 部 加 入 最 小 生成 树 。 为 了 避免 出 现 环 ， 假 设 所 有 边 的 权重 均 不 相同 。 提 示 : 维护 一 个 由 
顶点 索引 的 数组 来 辨别 连接 每 棵 树 和 它 最 近 的 邻居 的 边 。 记 得 用 上 union-find 数据 结构 。 

改进 的 Boruvka 算法 。 给 出 Boruvka 算 法 的 另 一 种 实现 , 用 双向 环形 链表 表示 最 小 生成 树 的 子 树 
使 得 子 树 可 以 被 合并 或 改名 ， 每 个 阶段 所 需 的 时 间 与 已 成 正比 (这样 就 不 需要 union-find 数据 结 
构 了 ) 。 

外 部 最 小 生成 树 。 如 果 一 幅 图 非常 大 ， 内 存 最 多 只 能 存储 亚 条 边 ， 如 何 计算 它 的 最 小 生成 树 ? 
Johnson 算法 。 使 用 一 个 d 向 堆 实 现 优先 队列 ( 请 见 练习 2.4.41 ) 。 对 于 各 种 图 的 模型 ， 找 到 4 
的 最 优 值 。 
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4.4 ”最 短路 径 

也 许 最 直观 的 图 处 理 问题 就 是 你 常常 需要 使 用 某 种 地 图 软件 或 者 导航 系统 来 获取 从 一 个 地 方 到 
达 另 一 个 地 方 的 路 径 。 我 们 立即 可 以 得 到 与 之 对 应 的 图 模型 : 顶点 对 应 交叉 路 口 ， 边 对 应 公路 ， 边 
的 权重 对 应 经 过 该 路 段 的 成 本 ， 可 以 是 时 间或 者 距离 。 如 果 有 单行 线 ， 那 就 意味 着 还 需要 考虑 加 权 
有 向 图 。 在 这 个 模型 中 ， 问 题 很 容易 就 可 以 被 归纳 为 : 

找到 从 一 个 顶点 到 达 另 一 个 顶点 的 成 本 最 小 的 路 径 。 

除了 这 类 问题 的 直接 应 用 ， 最 短路 径 模型 还 适用 于 一 系列 其 他 问题 请 见 表 4.4.1 ) ， 其 中 有 一 
些 看 起 来 似乎 和 图 的 处 理 毫 无 关系 。 举 个 例子 ， 我 们 会 在 本 节 的 最 后 考虑 金融 学 领域 的 套 汇 问题 。 


表 4.4.1 最 短路 径 的 典型 应 用 





应 用 项 点 边 

地 图 交叉 路 口 公路 

网 络 路 由 器 网 络 连接 
任务 调度 任务 优先 级 限制 
套 汇 货币 汇率 


我 们 采用 了 一 个 一 般 性 的 模型 ， 即 加 权 有 向 图 ( 它 是 4.2 节 和 4.3 节 的 模型 的 结合 ) 。 在 4.2 
节 中 我 们 希望 知道 从 一 个 顶点 是 否 可 以 到 达 另 一 个 顶点 。 在 本 节 中 ,我 们 会 把 权重 考虑 进来 ， 
就 像 在 4.3 节 中 研究 的 加 权 无 向 图 那样 。 在 加 权 有 向 图 中 ， 每 条 有 向 路 径 都 有 一 个 与 之 关联 的 
路 径 权重 ， 它 是 路 径 中 的 所 有 边 的 权重 之 和 。 这 种 重要 的 度量 方式 使 得 我 们 能 够 将 这 个 问题 归 
纳 为 “找到 从 一 个 顶点 到 达 另 一 个 顶点 的 权重 最 小 的 有 向 路 径 ”， 也 就 是 本 节 的 主题 。 图 4.4.1 
就 是 一 个 示例 。 


定义 。 在 一 幅 加 权 有 向 图 中 ， 从 顶点 s 到 顶点 t 的 
最 短路 径 是 所 有 从 s 到 上 的 路 径 中 的 权重 最 小 者 。 


本 节 中 ,我 们 将 会 学 习 解决 下 面 这 个 问题 的 经 典 





算法 。 0->2 0.26 从 顶点 0 到 顶点 
单 点 最 短路 径 。 给 定 一 幅 加 权 有 向 图 和 一 个 起 点 s， 7223 0.39 Sm 

回答 “从 s 到 给 定 的 目的 顶点 v 是 否 存在 一 条 有 向 路 。 。 2》 0 3 0->2 0.26 

径 ? 如 果 有 ， 找 出 最 短 (总 权重 最 小 ) 的 那 条 路 径 。” 5-22 0.4 2 0:39 

等 类 似 问 题 。 6->0 0.58 四 
我 们 计划 在 本 节 中 讨论 下 列 问题 : SF 


口 加 权 有 向 图 的 API 和 实现 以 及 单 点 最 短路 径 的 。 图 4.4.1 一 幅 加 权 有 向 图 和 其 中 的 一 条 
API; 最 短路 径 

口 解决 边 的 权重 非 负 的 最 短路 径 问 题 的 经 典 Dijkstra 算法 ; 

口 在 无 环 加 权 有 向 图 中 解决 该 问题 的 一 种 快速 算法 ， 边 的 权重 甚至 可 以 是 负 值 ; 

口 适用 于 一 般 情况 的 经 典 Bellman-Ford 算法 ， 其 中 图 可 以 含有 环 ， 边 的 权重 也 可 以 是 负 值 。 
我 们 还 需要 算法 来 找 出 负 权重 的 环 ， 以 及 不 含有 这 种 环 的 加 权 有 向 图 中 的 最 短路 径 。 

在 学 习 了 这 些 算法 之 后 ， 我 们 还 会 考虑 它们 的 应 用 。 
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4.4.1 最短 路径 的 性 质 
最 短路 径 问题 的 基本 定义 是 很 简单 的 ， 但 这 种 简洁 也 隐藏 了 一 些 在 学 习 相 关 的 算法 和 数据 结构 
之 前 需要 解决 的 问题 。 
口 路 径 是 有 向 的 。 最 短路 径 需 要 考虑 到 各 条 边 的 方向 
口 权重 不 一 定 等 价 于 距离 。 几 何 上 的 直觉 可 以 帮 - 
助 你 理解 算法 ， 因 此 示例 中 的 项 点 都 在 平面 上 
且 权重 为 项 点 之 间 的 欧 拉 距离 ， 例 如 图 44.1 所 
示 的 那 幅 有 向 图 。 但 权重 也 可 以 表示 时 间 、 花 
费 或 是 某 种 完全 无 关 的 东西 ， 也 不 一 定 会 和 距 
离 的 远近 成 正比 。 我 们 使 用 了 双关 性 的 术语 来 
强调 这 一 点 ， 指 的 是 权重 或 是 成 本 最 短 的 路 径 。 
口 并 不 是 所 有 项 点 都 是 可 达 的 。 如 果 t 并 不 是 从 
s 可 达 的 ,那么 就 不 存在 任何 路 径 ， 也 就 不 存 
在 s 到 上 的 最 短路 径 。 为 了 简化 问题 ， 我 们 的 
样 图 都 是 强 连 通 的 〔 每 个 项 点 从 另外 任意 一 个 
顶点 都 是 可 达 的 ) 。 
口 负 权 重 会 使 问题 更 复杂 。 我 们 暂时 假设 边 的 权 
重 都 是 正 的 (或 零 ) 。 负 权重 所 带 来 的 意外 效 
应 是 本 节 最 后 部 分 的 重点 。 
口 最 短路 径 一 般 都 是 简单 的 。 我 们 的 算法 会 忽略 
构成 环 的 零 权重 边 ， 因 此 找到 的 最 短路 径 都 不 
会 含有 环 。 
口 最 短路 径 不 一 定 是 唯一 的 。 从 一 个 顶点 到 达 另 
一 个 顶点 的 权重 最 小 的 路 径 可 能 有 多 条 ， 我 们 
只要 找到 其 中 一 条 即 可 。 
口 可 能 存在 平行 边 和 自 环 : 平行 边 中 的 权重 最 小 
者 才 会 被 选中 ,最 短路 径 也 不 可 能 包含 自 环 ( 除 
非 自 环 的 权重 为 零 ， 但 我 们 会 忽略 它 ) 。 在 正 
文中 ,为 了 避免 歧义 我 们 隐 式 地 很 设 平行 边 不 
-存在 ; 用 v 一 w 来 表示 从 v 到 w 的 边 ; 本 节 的 
代码 处 理 它们 并 没有 困难 。 
最 短路 径 树 
我 们 的 重点 是 单 点 最 短路 径 问题 ， 其 中 给 出 了 起 
点 5， 计 算 的 结果 是 一 棵 最 短路 径 树 (SPD， 它 包含 了 
顶点 s 到 所 有 可 达 的 顶点 的 最 短路 径 。 如 图 4.4.2 所 示 。 


wowmawwp 





~awaewwre 








amwwwwpe 












有 向 图 和 一 个 顶点 s， 以 s 为 
是 图 的 一 幅 子 图 ， 它 包含 
这 棵 有 向 树 的 根 结 点 为 s， 
中 的 一 条 最 短路 径 。 
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图 4.4.2 ”最短 路径 树 ( 另 见 彩 插 ) 
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这 样 一 棵 树 是 一 定 存在 的 ; 一 般 来 说 ， 从 到 一 个 顶点 有 可 能 存 - 
在 两 条 长 度 相等 的 路 径 。 如 果 出 现 这 种 情况 ， 可 以 删除 其 中 一 条 路 径 
的 最 后 一 条 边 。 如 此 这 般 ， 直 到 从 起 点 到 每 个 顶点 都 只 有 一 条 路 径 相 
连 ( 即 一 棵 树 ， 请 见 图 4.4.3 ) 。 通 过 构造 这 桂 最 短路 径 树 ， 可 以 为 用 例 
提供 从 s 到 图 中 任何 顶点 的 最 短路 径 ， 表 示 方 法 为 一 组 指向 父 结 点 的 链 
接 ， 和 4.1 节 中 表示 路 径 的 方法 完全 一 样 。 


[337] 4.4.2 加权 有 向 图 的 数据 结构 


8。 加 权 有 向 图 的 数据 结构 比 加 权 无 向 图 的 数据 结构 更 加 简单， 因为 有 。 图 443 要 全 有 250 


向 边 只 有 一 个 方向 。 与 Edge 类 中 的 either() 和 other 方法 不 同 ， 这 个 顶点 的 最 短 
里 定义 了 fromC) 和 toQ 方法 ,请 见 表 4.4.2。 路 径 树 


从 起 可 格 册 的 边 








表 4.4.2 ”加权 有 向 边 的 API 
public class DirectedEdge 
DirectedEdge(int v, int w, double weight) 





hh double weight() 边 的 权重 

int from() 指出 这 条 边 的 顶点 
.int toO) 3 这 条 边 指向 的 顶点 
String tStringO) 对象 的 字符 申 表示 


”从 4.1 节 到 43 节 ， 从 Graph 奖 过 滤 到 了 Edgeiteightedraph 类 。 与 以 前 一 样 ， 我 们 在 这 里 洪 
加 了 edges() 方法 并 使 用 DirectedEdge 类 代替 了 整 型 变量 ， 请 见 表 4.4.3。 








页 表 4.4.3 加 权 有 向 图 的 API 到 
public class EdgeweightedDigraph 
EdgeweightedDigraphCint V) 含有 V 个 项 点 的 空 有 向 图 
EdgeWeightedDigraph(In in) 从 输入 流 中 读 取 图 的 构造 函数 -一 
“ S int -VO 顶点 总 数 
2 int EO 边 的 总 数 . 
void addEdge(DirectedEdge e) 将 e 添加 到 该 有 向 图 中 
Iterable<DirectedEdge> adj(int v) 从 v 指 出 的 边 
Iterable<DirectedEdge> edges() 该 有 向 图 中 的 所 有 边 
String toString() 对 象 的 字符 串 表示 





_ 这 两 份 API 的 实现 请 见 后 面 的 框 注 “加 权 有 向 边 的 数据 结构 ”和 “加 权 有 向 图 的 数据 结构 ”。 
它们 很 自然 地 扩展 了 4.2 节 和 4.3 节 中 相应 的 类 的 实现 。Digraph 类 中 的 邻接 表 使 用 的 是 整数 , 在 ” 
EdgeweightedDigraph 的 邻接 表 中 使 用 的 是 WeightedEdge 对 象 。 与 从 4.1 节 到 42 节 中 Graph 类 
到 Digraph 类 的 转换 一 样 ， 从 4.3 节 的 EdgeWeightedGraph 类 到 本 节 中 的 EdgeWeightedDigraph 














类 的 转换 代码 也 变 得 简单 了 ， 因 为 在 数据 结构 中 每 条 边 只 会 出 现 一 次 。 


加 权 有 向 边 的 数据 类 型 
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pubiic class DirectedEdge 


private final int vi 
private final int w; 
private final double weight; 


// 边 的 起 点 
// 边 的 终点 
// 边 的 权重 


} 


public DirectedEdge(int v, int w, double weight) 
{ 


this.v = v; 
this.w = Ww; 总 
this.weight = weight; 


public double weight() 
{ return weight; } 
public int from() 

{ return vi } 
public int toO) 


“~{ returnw; } 


public String toString() 


{ return String.format("%d->%d %;2f", VY, w, weight); } 


DirectedEdge 类 的 实现 比 4.3 节 中 无 向 边 的 数据 类 型 Edge 类 ( 请 见 4.3.2 节 框 注 “ 带 权重 的 边 的 


数据 类 型 ”) 更 简单 ， 因 为 边 的 两 个 端点 是 有 区 别 的 。 用 例 可 以 使 用 惯用 代码 int v=e.to() ，w=e. 
from(); 来 访问 DirectedEdge 的 两 个 端点 。 > 





。 加 权 有 向 图 的 数据 类 型 





“A 


Public class EdgeWeightedDigraph 
private final int Vi // 顶 圳 总数 
private int E // 边 的 总 数 





private Bag<DirectedEdge>[] adj;  // 邻接 表 


public EdgeweightedDigraphCint Vj 
this.V = Vi; 
this:E = 0; 
adj =.(Bag<DirectedEdge>[]) new Bag[V]; 
for Cint v= 07 Vv < ¥; vtt) < 
adj[y] = new Bag<DirectedEdge;(); 





public -EdgeWeightedDigraph(In in) 
LV 请 见 练习 4.4.2 


publie int VO { return V; :了 
pubpie it EO { rerurn E; J} 
pubTic void addEdye(DirectedEdge:e 
~ 
adj[e. from()] .add(e); 
Etts EE 


} 2 
public IterabTe<Edge> adj(int v) 
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{ return adj[v]; } 


public Iterable<DirectedEdge> edges() 
{ 

Bag<DirectedEdge> bag = new Bag<DirectedEdge>(); 

for (int v = 0; v < V; v++) 

for (DirectedEdge e : adj[v]) 
bag.add(e); 

return bag; 

} 


} 

EdgeWeightedDigraph 类 的 实现 混合 了 EdgeWeightedGraph 类 和 Digraph 类 。 它 维护 了 一 个 由 顶 
点 索引 的 Bag 对 象 的 数组 ，Bag 对 象 的 内 容 为 DirectedEdge 对 象 。 与 Digraph 类 一 样 ， 每 条 边 在 邻接 
表 中 只 会 出 现 一 次 : 如 果 一 条 边 从 v 指向 w， 那 么 它 只 会 出 现在 v 的 邻接 链表 中 。 这 个 类 可 以 处 理 自 环 
和 平行 边 。toString() 方法 的 实现 留 作 练习 4.4.2。 
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图 4.4.4 所 示 的 是 用 EdgeweightedDigraph 表示 左 侧 的 加 权 有 向 图 时 所 构造 的 数据 结构 ， 在 构造 

的 过 程 中 边 被 按照 顺序 一 条 一 条 地 加 入 图 中 。 与 以 前 一 样 ， 我 们 使 用 了 Bag 类 来 表示 邻接 表 并 在 图 中 
按照 标准 方式 将 它们 表示 为 链表 .与 42 节 中 普通 的 有 向 图 一 样 , 每 条 边 在 数据 结构 中 都 只 出 现 了 一 次 。 
tinyEWD. txt 
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图 4.4.4 加 权 有 向 图 的 表示 
4.4.2.1 最短 路径 的 API 
对 于 最 短路 径 的 API, 我 们 的 设计 思路 与 4.1 节 中 的 DepthFirstPaths 和 BreadthFirstPaths 
的 API 是 一 样 的。 算法 将 会 实现 表 4.4.4 所 示 的 API 来 为 用 例 提供 图 中 的 最 短路 径 和 其 长 度 。 
表 4.4.4 最 短路 径 的 API 


public class SP 
SP(EdgeWeightedDigraph G，int s) ”构造 函数 





double distToCint v) 从 顶点 s 到 v 的 距离 ， 如 果 不 存 在 
则 路 径 为 无 穷 大 
boolean hasPathToCint v) 是 否 存在 从 顶点 s 到 v 的 路 径 
Tterable<Direc-tedEdge> pathTo(int v) 从 顶点 s 到 v 的 路 径 ， 如 果 不 存在 


则 为 nu11 





构造 函数 会 创建 最 短路 径 树 
并 计算 最 短路 径 的 长 度 ， 其 他 查 
询 方法 则 会 使 用 这 些 数 据 结构 为 
用 例 提供 路 径 的 长 度 以 及 路 径 的 
Iterable 对 象 。 
4.4.2.2 测试 用 例 

右 侧 框 注 是 一 个 简单 测试 用 
例 。 它 接受 一 个 输入 流 和 一 个 起 
点 作为 命令 行 参 数 ， 从 输入 流 中 
读 取 加 权 有 向 图 ， 根 据 起 点 来 计 
算 有 向 图 的 最 短路 径 树 并 打印 从 
起 点 到 其 他 所 有 顶点 的 最 短路 径 。 
我 们 约定 ， 所 有 的 最 短路 径 实现 
都 使 用 该 测试 用 例 进行 测试 。 在 
下 面 的 框 注 中 使 用 了 tinyEWD.txt 
文件 ， 它 定义 了 一 幅 较 小 的 样 图 
中 所 有 的 边 和 权重 ,会 用 来 显示 
最 短路 径 算法 的 详细 轨迹 。 它 的 
文件 格式 与 最 小 生成 树 算法 中 使 
用 的 样 图 相同 : 首先 是 顶点 总 数 斑 
和 边 的 总 数 E， 随 后 是 E 行 数据 ， 
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public static void main(String[] args) 
E 
EdgeWeightedDigraph G; 
6G = new EdgeWeightedDigraph(new InCargs[0])); 
int s = Integer.parseInt(args[1]); 
SP sp = new SP(G, s); 


for (int t = 0; t < G.VO; t++) 
. 


StdOut.print(s + ”to " + tb; 
StdOut .printf(" (%4.2f): ", sp.distTo(t)); 
if (sp.hasPathTo(t)) 
for (DirectedEdge e : 
StdOut.print(e + " 
StdOut.print1n(); 


Sp.pathTo(t)) 
3 


} 


% java SP tinyEwD.txt 0 
to 0 (0.00): 

: 0->4 0.38 
: 0->2 0.26 
: 0->2 0.26 
: 0->4 0.38 
: 0->4 0.38 
: 0->2 0.26 


4->5 0.35 5->1 0.32 
2->7 0.34 7->3 0.39 


4->5 0.35 
2->7 0.34 7->3 0.39 3->6 


: 0->2 0.26 2->7 0.34 


最 短路 径 的 宰 试 用 例 
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每 一 行为 两 个 项 点 的 索引 和 一 个 权重 。 在 本 书 的 网 站 上 ， 你 可 以 找到 一 些 定义 了 更 大 的 加 权 有 向 图 
的 文件 ， 包 括 mediumEWG:txt。 它 定义 了 一 幅 含有 250 个 顶点 的 加 权 有 向 图 ， 如 图 4.4.3 所 示 。 在 
这 幅 图 的 图 像 中 ， 每 一 行 数据 都 表示 方向 相反 的 两 条 边 ， 因 此 这 个 文件 所 含有 的 边 数 是 在 学 习 最 小 
生成 树 时 所 使 用 的 mediumEWG.txt 的 2 倍 。 在 最 短路 径 树 的 图 像 中， 每 一 行 都 表示 一 条 从 顶点 指 
出 的 有 向 边 。 

4.4.2.3 最短 路径 的 数据 结构 


distTor] 
0 





表示 最短 路 径 所 需 的 数据 结构 很 简单 ， 如 edgeTol] 

图 4.4.5 所 示 。 3 ss 1.05 
口 最 短路 径 树 中 的 边 。 和 深度 优先 搜索 、 | 

广度 优先 搜索 和 Prim 算法 一 样 ， 使 用 二 | 45 03 0 

个 由 顶点 索引 的 DirectedEdoe 对 象 的 下 2298 


父 链 接 数组 edgeTo[] ， 其 中 edgeTo[vJ 
的 值 为 树 中 连接 v 和 它 的 父 结 点 的 边 ( 也 
是 从 5 到 v 的 最 短路 径 上 的 最 后 一 条 边 ) 。 
口 到 达 起 点 的 距离 。 我 们 需要 一 个 由 项 点 索引 的 数组 distTo[]， 其 中 distTo[v] 为 从 s 到 v 
的 已 知 最 短路 径 的 长 度 : 
我 们 约定 ，edgeTo[s] 的 值 为 nu11，distTo[s] 的 值 为 0。 同 时 还 约定 ， 从 起 点 到 不 可 达 的 
顶点 的 距离 均 为 Double.POSITIVE_INFINITY。 和 以 前 一 样 ， 我 们 会 实现 使 用 这 些 数据 结构 的 数据 
类 型 并 支持 用 例 调用 方法 来 查询 最 短路 径 和 它们 的 长 度 。 


图 4.4.5 最 短路 径 的 数据 结构 
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4.4.2.4 边 的 松弛 private void relax(DirectedEdge e) 

我 们 的 最 短路 径 API 的 实现 都 基于 
本 A i int v = e.from(), w = e.toO; 
ee a GistTolm] > distToty] + .weightO) 
重 ，distTor] 中 只 有 起 点 所 对 应 的 元 素 SstTolw) < distTolv] » eweiohr OF 
的 值 为 0， 其 余 元 素 的 值 均 被 初始 化 为 i 
Double.POSITIVE_INFINITY。 随 着 算 了 
法 的 执行 ， 它 将 起 点 到 其 他 顶点 的 最 短 边 的 松弛 


路 径 信息 存 人 了 edgeTo[] 和 distTo[] 
数组 中 。 在 遇 到 新 的 边 时 ， 通 过 更 新 这 些 信息 就 可 以 得 到 新 的 最 短路 径 。 特 别 是 ， 我 们 在 其 中 会 用 
到 边 的 松弛 技术 ， 定 义 如 下 : 放松 边 v 一 w 意 味 着 检查 从 s 到 w 的 最 短路 径 是 否 是 先 从 s 到 v， 然 
后 再 由 v 到 w。 如 果 是 ， 则 根据 这 个 情况 更 新 数据 结构 的 内 容 。 上 边框 注 中 的 代码 实现 了 这 个 操作 。 
由 v 到 达 w 的 最 短路 径 是 distTo[v] 与 e.weight() 之 和 一 一 如 果 这 个 值 不 小 于 distTo[w] ， 称 这 
条 边 失 效 了 并 将 它 忽略 ; 如 果 这 个 值 更 小 ， 就 更 新 数据 。 

图 44.6 显示 的 是 边 的 放松 操作 之 后 可 能 出 现 的 两 种 情况 。 一 种 情况 是 边 失 效 ( 左边 的 例子 ) ， 不 
更 新 任何 数据 ; 另 一 种 情况 是 v 一 w 就 是 到 达 w 的 最 短路 径 ( 右边 的 例子 ) ， 这 将 会 更 新 edgeTo[w] 
和 distTo[w] (这 可 能 会 使 另 一 些 边 失 效 ， 但 也 可 能 产生 一 些 新 的 有 效 边 ) 。 松 弛 这 个 术语 来 自 于 用 
一 根 橡皮 筋 沿 着 连接 两 个 顶点 的 路 径 紧 紧 展开 的 比喻 : 放松 一 条 边 就 类 似 于 将 橡皮 筋 转移 到 一 条 更 短 
的 路 径 上 ， 从 而 缓解 了 橡皮 筋 的 压力 。 如 果 relaxQ 改变 了 和 边 e 相关 的 顶点 的 出 stTo[e.toQO] 和 
edgeTo[e.toO] 的 值 ， 就 称 e 的 放松 是 成 功 的 。 





本 2 stTo[v] 


Re 二 Vw 的 权重 为 I.3 “> 


Vw 是 有 效 的 


7 0 0—o 
在 edgeTo[] 7 
中 的 时 色 边 ， GO dierom 


7.2 


Oi < 一 一 edgeTo[w] 


oT 人 5 这 a 


短路 径 树 中 
图 4.4.6 边 的 松弛 的 两 种 情况 【 另 见 彩 插 ) 


4425 预 让 的 松弛 
实际 上 ， 实 现 会 放松 从 一 个 给 定 项 点 指出 的 所 有 边 ， 如 下 页 框 注 中 (被 重 载 的 ) relax() 的 实 


. 现 所 示 。 注 意 ， 从 任意 jstTo[v] 为 有 限 值 的 顶点 v 指向 任意 distT[] 为 无 穷 的 顶点 的 边 都 是 有 


效 的 。 如 果 v 被 放松 ， 那 么 这 些 有 效 边 都 会 被 添加 到 edgeTo[] 中 。 某 条 从 起 志 指 出 的 边 将 会 是 第 
一 条 被 加 入 edgeTo[] 中 的 边 。 算 法 会 遵 慎 选 择 顶点 ， 使 得 每 次 顶点 松弛 操作 都 能 得 出 到 达 革 个 项 
点 的 更 短 的 路 径 ， 最 后 逐渐 找 出 到 达 每 个 顶点 的 最 短路 径 。 如 图 4.4.7 所 示 。 











放松 前 
private void relax(EdgeweightedDigraph G, int v) bie oO 
for (DirectedEdge e : G.adj(v)) 5 
{ % 
int w = e.toO; 
if (distTo[w] > distTo[v] + e.weightO) O 
{ 
distTo[w] = distTo[v] + e.weightO; 放松 后 
edgeTofw] = e; pa we 
+ Ee 
1 
} S ” 
?7 失效 
顶点 的 松弛 O 〇 


图 4.4.7 顶点 的 松弛 
4.4.2.6 ”为 用 例 准 备 的 查询 方法 


与 4.1 节 (以 及 练习 4.1.13 ) 中 实现 路 径 查 找 的 API 相似 ，edgeTo[] 和 distTo[] 数组 直接 支 
持 pathTo()、hasPathTo() 和 jistTo() 查询 方法 ， 如 下 方 框 注 所 示 。 上 默认 所 有 最 短路 径 的 实现 
都 包含 这 段 代码 。 前 面 已 经 提 到 过 ， 只 有 在 v 是 从 s 可 达 的 情况 下 ，distTo[v] 才 是 有 意义 的 ， 


还 已 经 约定 ， 对 于 从 s 不 可 达 的 顶点 ，distTo() 方法 都 应 该 返回 无 穷 大 。 在 实现 这 个 约定 时 ， 将 _ 


distTo[] 中 的 所 有 元 素 都 初始 化 为 Double.POSITIVE_ et 


INFINITY, distTo[s] 则 为 0。 最 短路 径 算法 会 将 从 起 点 2 | se 

可 达 的 顶点 v 的 distTo[v] 设 为 一 个 有 限 值 ， 这 样 就 不 oe 
` 必 再 用 marked[] 数组 来 在 图 的 搜索 中 标记 可 达 的 顶点 ， se 

而 是 通过 检测 -distTo[v] 是 否 为 Double.POSITIVE_ ey 

INFINITY 来 实现 hasPathTo(v)。 对 于 pathTo() 方法 ， 

我 们 约定 如 果 v 不 是 从 起 点 可 达 的 则 返回 nu11， 如 果 v = = 

等 于 起 点 则 返回 一 条 不 含 任何 边 的 路 径 。 对 于 可 达 的 顶 

点 ， 我 们 会 遗 历 最 短路 径 树 并 返回 栈 上 的 所 有 边 ， 这 和 a 3->6 





DepthFirstPaths 以 及 BreadthFirstPaths 的 做 法 完全 
一 样 。 图 4.4.8 显示 了 在 示例 中 路 径 0 一 2 一 7 一 3 一 6 
是 如 何 被 找到 的 。 . 


图 4.4.8 ”pathToQ 方法 的 计算 轨迹 


public double distToCint v) 
{ return distTofv]; } 


public boolean hasPathTo(Cint v) 
{ return distTo[v] < Double.POSITIVE_INFINITY; } 


public Iterable<DirectedEdge> pathTo(int v) 
{ 


if (thasPathTo(v)) return nul1; 

Stack<DirectedEdge> path ~ new Stack<DirectedEdge>(); 

for (DirectedEdge e = edgeTo[v]; e != nu11; e = edgeTo[e.fromO]) 
path.push(e); 

return path; 


最 短路 径 API 中 的 查询 方法 
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4.4.3 “最短 路径 算法 的 理论 基础 


边 的 放松 操作 是 一 项 非常 容易 实现 的 重要 操作 ， 它 是 实现 最 短路 径 算法 的 基础 。 同 时 ， 它 也 是 


理解 这 个 算法 的 理论 基础 并 使 我 们 能 够 完整 地 证 明 算 法 的 正确 性 。 
4.4.3.1 ”最 优 性 条 件 

以 下 命题 证 明了 判断 路 径 是 否 为 最 短路 径 的 全 局 条 件 与 在 放松 一 条 边 时 所 检测 的 局 部 条 件 是 等 
价 的 。 


命题 P (最 短路 径 的 最 优 性 条 件 ) 。 令 G 为 一 幅 加 权 有 向 图 ， 顶点 s 是 G 中 的 起 点 ， 
由 stTo[] 是 一 个 由 顶点 索引 的 教 组 ， 保 存 的 是 G 中 路 径 的 长 度 。 对 于 从 s 可 达 的 所 有 顶点 v， 
distTo[v] 的 值 是 从 s 到 v 的 某 条 路 径 的 长 度 ， 对 于 从 s 不 可 达 的 所 有 顶点 v， 该 值 为 无 穷 大 。 
当 且 仅 当 对 于 从 v 到 w 的 任意 一 条 边 e， 这 些 值 都 满足 distTo[w]<=distTo[v]+e.weightC) 
时 〔 换 名 话说 ， 不 存在 有 效 边 时 ) ， 它 们 是 最 短路 径 的 长 度 。 


证 明 。 假 设 distTo[w] 是 从 s 到 w 的 最 短路 径 。 如 果 对 于 某 条 从 v 到 w 的 边 e 有 distTo[w]> 
istTo[v]+e.weight()， 那么 从 s 到 w( 经 过 v) 和 且 经 过 e 的 路 径 的 长 度 人 必然 小 于 
直 istTo[w]， 了 矛盾。 因此 最 优 性 条 件 是 必要 的 。 

要 证 明 最 优 性 条 件 是 充分 的 ， 假设 w 是 从 s 可 达 的 且 s=v 一 Vi 一 Vi .一 Vi=w 是 从 s 到 w 的 
最 短路 径 ， 其 权重 为 OPTw。 对 于 工 到 k 之 间 的 i, 令 表示 人 Vi 到 Vi 的 边 。 根 据 最 优 性 条 件 。 
可 以 得 到 以 下 不 等 式 : 


distTo[w] = distTo[v,] <= distTo[v] + e@,.weight() 
distTo[vti] <= distTo[vez] + exri.weight() 


distTo[v] ‘<= distTo[v] + e,.weight() 
distTo[w] <= distTo[s] + aa.weightO 


综合 这 些 不 等 式 并 去 掉 distTo[s]=0.0， 得 到 : 
distTo[w] <= ai-weightO + .., + el-weightO = OpTs. 


现在 ，distTo[w] 为 从 s 到 w 的 某 条 边 的 长 度 ， 因 此 它 不 可 能 比 最 短路 径 更 短 。 所 以 以 下 等 式 
必然 成 立 。 


oPTw <= distTo[w] <- OPpTs 


4.4.3.2 验证 

命题 P 的 一 个 重要 的 实际 应 用 是 最 短路 径 的 验证 。 无 论 一 种 算法 会 如 何 计算 distTo[] ， 都 只 
需要 遍历 图 中 的 所 有 边 一 遍 并 检查 最 优 性 条 件 是 否 满足 就 能 够 知道 该 数组 中 的 值 是 否 是 最 短路 径 的 
长 度 。 最 短路 径 的 算法 可 能 会 很 复杂 ， 因 此 能 够 快速 验证 计算 的 结果 就 变 得 很 重要 。 为 此 ， 我 们 在 
本 书 的 网 站 上 的 实现 中 包含 了 一 个 check() 方法 。 该 方法 还 会 检查 edgeTo[] 指明 的 路 径 并 验证 它 
与 distTo[] 是 否 一 致 。 
4.4.3.3 通用 算法 

由 最 优 性 条 件 马 上 可 以 得 到 一 个 能 够 活 盖 已 经 学 习 过 的 所 有 最 短路 径 算法 的 通用 算法 。 现在 ， 
我 们 暂时 只 研究 非 负 权重 的 情况 。 
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命题 Q (通用 最 短路 径 算法 ) 。 将 distTo[s] 初始 化 为 0, 其 他 distTo[] 元 素 初始 化 为 无 穷 大 ， 
继续 如 下 操作 : 

放松 G 中 的 任意 边 ， 直 到 不 存在 有 效 边 为 止 。 
对 于 任意 从 s 可 达 的 顶点 w， 在 进行 这 些 操作 之 后 ，distTo[w] 的 值 即 为 从 5 到 w 的 最 短路 径 
的 长 度 ( 且 edgeTo[w] 的 值 即 为 该 路 径 上 的 最 后 一 条 边 ) 。 


证 明 。 放 松 边 v 一 w 必 然 会 将 distTo[w] 的 值 设 为 从 s 到 w 的 某 条 路 径 的 长 度 (上 将 
edgeTo[w] 设 为 该 路 径 上 的 最 后 一 条 边 ) 。 对 于 从 s 可 达 的 任意 顶点 w， 只 要 distTo[w] 仍然 
是 无 穷 大 ， 到 达 w 的 最 短路 径 上 的 某 条 边 肯定 仍然 是 有 效 的 ， 因 此 算法 的 操作 会 不 断 继续 ， 直 
到 由 s 可 达 的 每 个 顶点 的 distTo[] 值 均 变 为 到 达 该 顶点 的 某 条 路 径 的 长 度 。 对 于 已 经 找到 最 
短路 径 的 任意 顶 皮 v， 在 算法 的 计算 过 程 中 distTo[v] 的 值 都 是 从 s 到 v 的 某 条 (简单 ) 路 径 
的 长 度 上 且 必然 是 单调 递减 的 。 ， 它 递减 的 次 数 必然 是 有 限 的 (每 切换 一 条 S 到 v 简单 路 径 
就 递减 一 次 ) 。 当 不 存在 有 效 边 的 时 候 ， 命 题 P 就 成 立 了 。 





将 最 优 性 条 件 和 通用 算法 放 在 一 起 学 习 的 关键 原因 是 ， 通用 算法 并 没有 指定 边 的 放松 顺序 。 因 
此 ， 要 证 明 这 些 算法 都 能 通过 计算 得 到 最 短路 径 ， 只 需 证 明 它们 都 会 放松 所 有 的 边 直到 所 有 边 都 失 
效 即 可 。 


4.4.4 Dijkstra 算法 

在 43 节 中 ， 我 们 讨论 了 寻找 加 权 无 向 图 中 的 最 小 生成 树 的 Prim 算法 ;构造 最 小 生成 树 的 每 一 步 
都 向 这 棵 树 中 添加 一 条 新 的 边 。Dijkstra 算法 采用 了 类 似 的 方法 来 计算 最 短路 径 树 。 首 先 将 distTo[s] 
初始 化 为 0，distTor] 中 的 其 他 元 素 初始 化 为 正 无 穷 。 然 后 将 distTo[] 最 小 的 非 树 项 点 放松 并 加 入 树 
中 ， 如 此 这 般 ， 直 到 所 有 的 顶点 都 在 树 中 或 者 所 有 的 非 树 顶 点 的 distTo[] 值 均 为 无 穷 大 。 


命题 R。Dijkstra 算法 能 够 解决 边 权重 非 负 的 加 权 有 向 图 的 单 起 点 最 短路 径 问 题 。 


证 明 。 如 果 v 是 从 起 点 可 达 的 ， 那么 所 有 v 一 w 的 边 都 只 会 被 放松 一 次 。 当 Vv 被 放松 时 ， 必 有 
distTo[w]<=distTo[v]+e.weightC)。 该 不 等 式 在 算法 结束 前 都 会 成 立 ， 因 此 distTo[w] 只 
会 变 小 (放松 操作 只 会 减 小 distTo[] 的 值 ) 而 distTo[v] 则 不 会 改变 (因为 边 的 权重 非 负 且 
在 每 一 步 中 算法 都 会 选择 distTo[] 最 小 的 顶点 ， 之 后 的 放松 操作 不 可 能 使 任何 distTo[] 的 
值 小 于 distTo[v] ) 。 因 此 ， 在 所 有 从 s 可 达 的 顶点 均 被 添加 到 树 中 之 后 ,最短 路径 的 最 优 性 
条 件 成 立 ， 即 命题 P 成 立 。 


4.4.4.1 数据 结构 

要 实现 Dijkstra 算法 ， 除 了 distTo[] 和 edgeTo[] 数组 之 外 还 需要 一 条 索引 优先 队列 pg， 以 
保存 需要 被 放松 的 顶点 并 确认 下 一 个 被 放松 的 顶点 。 我 们 知道 ndexMinPQ 可 以 将 索引 和 键 ( 优先 级 ) 
关联 起 来 并 且 可 以 删除 并 返回 优先 级 最 低 的 索引 。 在 这 里 ， 只 要 将 顶点 v 和 distTo[v] 关联 起 来 
就 立即 可 以 得 到 Dijkstra 算法 的 实现 。 另 外 ， 稍 加 推导 也 可 以 知道 ，edgeTo[] 中 的 元 素 所 对 应 的 可 
达 顶 点 构成 了 一 棵 最 短路 径 树 。 
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4.4.4.2 换 一 个 角度 看 问题 


根据 算法 的 证 明 ， 我 们 可 以 从 另 一 个 角度 来 最 短路 径 树 
的 边 (黑色 ) 、 





理解 它 ， 如 图 4.4.9 所 示 ， 已 知 树 结 点 所 对 应 的 横 切 边 (红色 ) 
distTo[] 值 均 为 最 短路 径 的 长 度 。 对 于 优先 队列 

中 的 任意 顶点 w，distTo[w] 是 从 s 到 w 的 最 短 

路 径 的 长 度 ， 该 路 径 上 的 所 有 顶点 均 在 树 中 且 路 的 

径 上 的 最 后 一 条 边 为 edgeTo[w] 。 优 先 级 最 小 的 X 

顶点 的 distTo[] 值 就 是 最 短路 径 的 权重 ， 它 不 会 人 
小 于 已 经 被 放松 过 的 任意 顶点 的 最 短路 径 的 权重 ， 一 条 模 切 边 必然 在 


从 
也 不 会 大 于 还 未 被 放松 过 的 任意 顶点 的 最 短路 径 和 RE 


的 权重 。 这 个 顶点 就 是 下 一 个 要 被 放松 的 顶点 。 
所 有 从 s 可 达 的 顶点 都 会 按照 最 短路 径 的 权重 顺 。“ 图 4.4.9 Dijkstra 的 最 短路 径 算法 ( 另 见 彩 插 ) 
序 被 放松 。 

图 4.4.10 是 算法 处 理 样 图 tinyEWD.txt 时 的 轨迹 。 在 这 个 例子 中 ， 算 法 构造 最 短路 径 树 的 过 程 
如 下 所 述 。 

口 将 顶点 0 添加 到 树 中 ， 将 顶点 2 和 4 加 入 优先 队列 。 

口 从 优先 队列 中 删除 顶点 2， 将 0 一 2 添加 到 树 中 ,将 顶点 7 加 入 优先 队列 。 

口 从 优先 队列 中 删除 顶点 4， 将 0 一 4 添加 到 树 中 ， 将 顶点 5 加 入 优先 队列 ， 边 4 一 7 失效 。 

口 从 优先 队列 中 删除 顶点 7， 将 2 一 7 添加 到 树 中 ,将 顶点 3 加 入 优先 队列 ， 边 7 一 5 失效 。 

口 从 优先 队列 中 删除 顶点 5， 将 4 一 5 添加 到 树 中 ， 将 顶点 1 加 入 优先 队列 ， 边 5 一 7 失效 。 

口 从 优先 队列 中 删除 顶点 3， 将 7 一 3 添加 到 树 中 ， 将 项 点 6 加 入 优先 队列 。 

口 从 优先 队列 中 删除 顶点 1， 将 5 一 1 添加 到 树 中 ， 边 1 一 3 失效 。 

口 从 优先 队列 中 删除 顶点 6， 将 3 一 6 添加 到 树 中 。 

算法 按照 顶点 到 起 点 的 最 短路 径 的 长 度 的 增 序 将 它们 添加 到 最 短路 径 树 中 ， 如 图 4.4.10 右 侧 的 
红色 箭头 所 示 。 

Dijkstra 算法 的 实现 DijkstraSP (算法 4.9 ) 只 是 用 代码 复述 了 算法 的 描述 ， 还 在 relax() 方 

“法 中 添加 了 一 行 语句 来 处 理 以 下 两 种 情况 : 要 么 边 的 to() 得 到 的 顶点 还 不 在 优先 队列 中 ， 此 时 需 

要 使 用 insert() 方法 将 它 加 入 到 优先 队列 中 ; 要 么 它 已 经 在 优先 队列 中 且 优 先 级 需要 被 降低 ， 此 
时 可 以 用 change 0 方法 实现 。 


命题 R ( 续 ) 。 在 一 幅 含有 严 个 顶点 和 已 条 边 的 加 权 有 向 图 中 ， 使 用 Dijkstra 算法 计算 根 结 点 
为 给 定 起 点 的 最 短路 径 树 所 需 的 空间 与 亚 成 正比 ， 时 间 与 BlogF 成 正比 (最 坏 情况 下 ) 。 


证 明 。 同 Prim 算法 的 证 明 《清风 全 题 N ) 


-如 前 所 述 ， 思 考 Dijkstra 算法 的 另 一 种 方式 就 是 将 它 和 4.3 节 的 Prim 算法 (算法 4.7 ). 相 比较 。 
两 种 算法 都 会 用 添加 边 的 方式 构造 一 棵 树 : Prim 算法 每 次 添加 的 都 是 离 树 最 近 的 非 树 顶点 ，Dijkstra 
算法 每 次 添加 的 都 是 离 超 点 最 近 的 非 树 顶 点 。 它 们 都 不 需要 marked[] 数组 ， 因 为 条 件 Imarked[w] 
等 价 于 条 件 distTo[w] 为 无 穷 大 。 换 句 话说 ， 将 算法 4.9 中 的 有 向 图 换 成 无 向 图 并 忽略 relaxC) 
方法 中 由 stTo[v] 部 分 的 代码 ， 就 会 得 到 算法 4.7， 也 就 是 Prim 算法 的 即时 版 本 (! ) 。 同 样 , 根 
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据 LazyPrimMST (4.3.4 节 框 注 “ 最 小 生成 树 的 ” - 红色 顶点 : 


Prim 算法 的 延 时 实现 ”) 实现 Dijkstra 算法 的 延 - SA re ge 
时 版 本 也 并 不 困难 。 eceN oaoa 026 
4.4.4.3 变种 pd 0 3 0 
我 们 只 需 对 Dijkstri 算法 的 实现 稍 作 适当 的 JE 一 
修改 就 能 够 解决 这 个 问题 的 其 他 版 本 ， 例 如 ， 加 ame Em - 9 
0 0.00 


权 无 向 图 中 的 单 点 最 短路 径 。 给 定 一 柄 加 权 无 和 二 
图 和 -个 起 点 5， 回答 “是 知 存在 一 条 从 s 到 给 a a 
定 的 顶点 v 的 路 径 ? 如 果 有 ， 找 出 最 短 (总 权重 GO) 

最 小 ) 的 那 条 路 径 。” 等 类 似 问题 。 NO 


如 果 将 无 向 图 看 作 有 向 图 ， 这 个 问题 的 答案 
就 很 简单 了 。 也 就 是 说 ,对 于 给 定 的 加 权 无 向 图 ， 
创建 一 幅 由 相同 顶点 构成 的 加 权 有 向 图 ， 且 对 于 “0) 9 


无 向 图 中 的 每 条 边 ， 相 应 地 创建 两 条 ( 方向 不 同 ) 。 (人 
有 向 边 。 有 向 图 中 的 路 径 和 无 向 图 中 的 路 径 存在 
着 一 一 对 应 的 关系 ， 路 径 的 权重 也 是 相同 的 一 一 
最 短路 径 的 问题 是 等 价 的 。 


算法 4.9 最短 路径 的 Dijkstra 算法 “ 


0->2 0.26 0,26 


0->4 0.38 0.38 
4->5 0.35 0.73 





2->7 0.34 0.60<— 


0->2 0.26 0.26 
7->3 0.37 0.90 
0->4 0.38 0,38 
4->5 0.35 0.73<— 


2->7 0.34 0.60 
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4 站 0 0.00 
public class DijkstraSP 1 5->10.32 1.05 
{ : 0->2 Oa 26 
> ->3 0. 37 < 
private DirectedEdge[] edgeTo; A 0.38 0.38 
private doublef] distTo; 5 4->5 0.35 ，0.73 
private IndexMinPQ<Double> pq; 7 227.034 0.60 
public DijkstraSPCEdgeweightedDigraph 0 0.00 
G, int s) 1 5->10.32 1.05<— 
{ 2 0->2 0.26 0.26 
3 .7->3 0.37 0.97 
edgeTo = new DirectedEdge[G.V()]; 4 0->4 0.38 0.38 
5 4->5 0.35 0.73 
distTo = new double[G.VO]; 人 
pq = new 7 2->7 0.34 0.60 
IndexMinpQ<Double>(G.VO); tik 
for Cint v = 0; v « G.VO; v+t): 人 
distTo[v] = Double.POSITIVE- 3 7->3 0.37 0.97 
INFINITY; - 4 0->4 0.38 0.38 
distTo[s] = 0.0; = 0 
7 2->7 0.34 0.60 
pq.insert(s, 0.0); 人 0.00 
while (!pq.isEnptyO) EE x 1.05 
relax(GC，pq,delMinO) 0.26 
3 0.97 
4 0.38 
private void 日 1 
7 0.60 








relax(EdgeweightedDigraph G, int v). -~ 
{ = : 


A 652 

for(Di :ad 1 

AN; irectedEdge e : G.adj(v)) : 图 4410 Di 算法 的 轨迹 ( 另 见 彩 插 ) 
int w = eto0Oi 3 a K 

= if Cdistfotw] > distfolv] 于 人 7 a 

Weight Q) Ss a i 
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if (pq.contains(w)) pq.change(w, distTo[w]); 
else pq.insert(w, distTo[w]); 


public double distTo(int v) // 最 短路 径 树 实现 中 的 标准 查询 算法 
public boolean hasPathToCint v) // 《请 见 4.4.2.6 节 框 注 “ 最 短路 径 
public Iterable<Edge> pathTo(int v) // API 中 的 查询 方法 ) 

} 





Dijkstra 算法 的 实现 每 次 都 会 为 最 短路 径 树 添加 一 条 边 ， 该 边 由 一 个 树 中 的 顶点 指向 一 个 非 树 
顶点 w 且 它 是 到 s 最 近 的 顶点 。 

给 定 两 点 的 最 短路 径 。 给 定 一 幅 加 权 有 向 图 以 及 一 个 起 点 s 和 一 个 终点 t+， 找到 从 s 到 t 的 最 
短路 径 。 

要 解决 这 个 问题 ， 你 可 以 使 用 Dijkstra 算法 并 在 从 优先 队列 中 取 到 t 之 后 终止 搜索 。 

任意 顶点 对 之 间 的 最 短路 径 。 给 
定 一 幅 加 权 有 向 图 ， 回 答 “给 定 一 个 


public class DijkstraA11PairsSP 
起 点 5 和 一 个 终点 t， 是 否 存在 一 条 { 


private DijkstraSP[] all; 


从 s 到 七 的 路 径 ? 如 果 有 ， 找 出 最 短 
(总 权重 最 小 ) 的 那 条 路 径 。” 等 类 
似 问题 。 

右边 框 注 中 短小 精 悍 的 代码 解决 
了 任意 项 点 对 之 间 的 最 短路 径 问 题 ， 
所 需 的 时 间 和 空间 都 与 EmogF 成正 
比 。 它 构造 了 DijkstraSP 对 象 的 数 
组 ， 每 个 元 素 都 将 相应 的 顶点 作为 起 
点 。 在 用 例 进行 查询 时 ， 代 码 会 访问 
起 点 所 对 应 的 单 点 最 短路 径 对 象 并 将 
目的 顶点 作为 参数 进行 查询 。 

欧 拉 图 中 的 最 短路 径 。 在 顶点 为 


DijkstraA11PairsSP(EdgeweightedDigraph G) 
{ 
all = new DijkstraSP[G.VO] 
for (int v = 0; v < G.VO; v++) 
al1[v] = new DijkstraSP(G, v); 
} 


Iterable<Edge> path(int s, int t) 
{ return all[s].pathTo(t); } 


double dist(int s, int t) 
{ return all[s].distTo(t); } 


任意 顶点 对 之 间 的 最 短路 径 


平面 上 的 点 且 边 的 权重 与 顶点 欧 拉 间距 成 正比 的 图 中 ， 解 决 单 点 、 给 定 两 点 和 任意 项 点 对 之 间 的 最 


短路 径 问题 。 


在 这 种 情况 下 ， 有 一 个 小 小 的 改动 可 以 大 幅 提高 Dijkstra 算法 的 运行 速度 ( 请 见 练习 4.4.27 ) 。 
图 4.4.11 显示 的 是 Dijkstra 算法 在 处 理 测试 文件 mediumEWD.txt ( 请 见 4.4.2.2 节 ) 所 定义 的 欧 
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拉 图 时 用 若干 不 同 的 起 点 产生 最 短路 径 树 的 过 程 。 和 之 前 一 样 ， 这 幅 图 中 的 线段 都 表示 双向 的 有 向 
边 。 这 些 图 片 展示 了 一 段 引 人 和信 胜 的 动态 过 程 。 

下 面 ， 我 们 将 会 考虑 加 权 无 环 图 中 的 最 短路 径 算法 并 且 将 在 线性 时 间 内 解决 该 问题 ( 比 
Dijkstra 算法 要 快 ) 。 然 后 是 负 权重 的 加 权 有 向 图 中 的 最 短路 径 问 题 ，Dijkstra 算法 不 适用 于 这 
种 情况 。 
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60% 


SPT 


- 罗 - ”图 4.4.11 Dijkstra 算 法 《250 个 顶点 ， 不 同 的 起 点 ) 657 


.4.4.5 无 环 加权 有 向 图 中 的 最 短路 径 算 法 
许多 应 用 中 的 加 权 有 向 图 都 是 不 含有 有 向 环 的 。 我 们 现在 来 学 习 一 种 比 Dijkstra 算法 更 快 、 更 
简单 的 在 无 环 加 权 有 向 图 中 找 出 最 短路 径 的 算法 ， 如 图 4.4.12 所 示 。 它 的 特点 是 : 
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口 能 够 在 线性 时 间 内 解决 单 点 最 短路 径 问题 ; 

口 能 够 处 理 负 权重 的 边 ; 

口 能 够 解决 相关 的 问题 ， 例 如 找 出 最 长 的 路 征 。 

这 些 算法 都 是 在 .4.2 节 中 学 过 的 无 环 有 向 图 的 拓 
扑 排序 算法 的 简单 扩展 。 

特别 的 是 ， 只 要 将 顶点 的 放松 和 拓扑 排序 结合 
起 来 ， 马 上 就 能 够 得 到 一 种 解决 无 环 加 权 有 向 图 中 的 
最 短路 径 问题 的 算法 。 首先 ,将 distTo[s] 初始 化 
为 0， 其 他 distTo[j 元 素 初 始 化 为 无 穷 大 ， 然 后 一 
个 一 个 地 按照 拓扑 顺序 放松 所 有 项 点。 我 们 可 以 用 与 
Dijkstra 算法 的 证 明 ( 命题 R) 类 似 的 方法 证 明 这 个 。 图 4.4.12 .一 幅 无 环 加 权 有 向 图 和 它 的 一 棵 
方法 的 正确 性 。 最 短路 径 树 





命题 S。 按 照 拓扑 顺序 放松 顶点 ， 就 能 在 和 E+V 成 正比 的 时 间 内 解决 无 环 加 权 有 向 图 的 单 点 最 
短路 径 问题 。 


证 明 。 每 条 边 V 一 W 都 只 会 被 放松 一 次 。 当 v 被 放松 时 ， 得 到 ; distTo[w]<= distTo[v]+e. 
weight()。 在 算法 结束 前 该 不 等 式 都 成 立 ， 因 为 distTo[v] 是 不 会 变化 的 ( 因为 是 按照 拓扑 
顺序 放松 顶点 ， 在 v 被 放松 之 后 算法 不 会 再 处 理 任何 指向 v 的 边 ) 而 distTo[w] 只 会 变 小 ( 任 
何 放 松 操作 都 只 会 减 小 distTo[] 中 的 元 素 的 值 )。 因 此 ， 在 所 有 从 s 可 达 的 顶点 都 被 加 入 到 
树 中 后 ， 最 短路 径 的 最 优 性 条 件 成 立 ， 命 题 Q 也 就 成 立 了 。 时 间 上 限 很 容易 得 到 : 命题 G 告诉 
我 们 拓扑 排序 所 希 的 时 间 与 Bt 所 成 正比 ， 而 在 第 二 次 遍历 中 每 条 按 都 只 会 被 放松 一 次 ， 因 此 算 
法 总 耗 时 与 E+ 成 正比 。 





图 4.4.13 是 算法 处 理 无 环 加 权 有 向 样 图 tinyEWDAG.txt 的 轨迹 。 在 这 个 例子 中 ， 算 法 由 顶点 5 
开始 按照 以 下 步骤 构建 了 一 棵 最 短路 径 树 : 

口 用 深度 优先 搜索 得 到 图 的 顶点 的 拓扑 排序 5 1 3 6 4 7 0 2; 

口 将 顶点 5 和 从 它 指 出 的 所 有 边 添加 到 树 中 ; 

口 将 顶点 1 和 边 1 一 3 添加 到 树 中 ; 

口 将 顶点 3 和 边 3 一 6 添加 到 树 中 ， 边 3 一 7 已 经 失效 ; 

口 将 顶点 6 和 边 6 一 2、6 一 0 添加 到 树 中 , 边 6 一 4 已 经 失效 ; 

口 将 项 点 4 和 边 4 一 0 添加 到 树 中 , 边 4 一 7 和 6 一 0 已 经 失效 ; 

口 将 顶点 7 和 边 7 一 2 添加 到 树 中 ， 边 6 一 2 已 经 失效 ; 

口 将 顶点 0 添加 到 树 中 ， 边 0 一 2 已 经 失效 ; 

口 将 顶点 2 添加 到 树 中 。 5 

图 中 没有 画 出 将 2 添加 到 树 中 的 一 步 ， 拓 扑 序列 中 的 最 后 一 个 顶点 没有 指出 的 边 。 
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图 4.4.13 寻找 无 环 加 权 有 向 图 中 的 最 短路 径 的 算法 轨迹 ( 另 见 彩 插 ) 


算法 4.10 在 实现 中 直接 使 用 了 已 学 习 过 的 许多 代码 。 它 假设 Topo1ogical 类 使 用 本 节 中 介绍 
的 EdgeWeightedDigraph 类 和 DirectedEdge 类 的 API( 请 见 练习 4.4.12 ) 重 载 了 拓扑 排序 的 方法 。 
注意 ， 该 实现 中 不 需要 布尔 数组 marked[] : 因为 是 按照 拓扑 顺序 处 理 无 环 有 向 图 中 的 顶点 ， 所 以 
不 可 能 再 次 遇 到 已 经 被 放松 过 的 顶点 。 算法 4.10 的 效率 几乎 已 经 没有 提高 的 空间 了 : 在 拓扑 排序 后 ， 
构造 函数 会 扫描 整 幅 图 并 将 每 条 边 放松 一 次 。 在 已 知 加 权 图 是 无 环 的 情况 下 ， 它 是 找 出 最 短路 径 的 
最 好 方法 。 


算法 4.10 无 环 加 权 有 向 图 的 最 短路 径 算法 


public class Acyc1icSP 
{ 





private DirectedEdge[] edgeTo; 
private double[] distTo; 


public Acyc1icSP(EdgewWeightedDigraph G, int s) 
{ 

edgeTol = new DirectedEdge[G.VO]; 

distTo,s new double[G.VO]; = 


for int Ve= 0;.v < G.VO; v++) 
distFoly] = Double.POSITIVE_INFINITY; 
distTols] = 00; 


Topological top = new Topological (CG); 
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for Cint v : top.orderO) 
-relax(G，V); 可 和 
和 2 a 站 
private void reTaxtEdgeeighredDigraph G, int v) 
” // 请 见 4.4.1.5 杠 注 “顶点 的 检 驴 ” -一 





一 二 abiic doubie distToCint 要 村 77 最 短路 径 树 实现 中 的 标准 查询 算法 ( 请 见 4.4.1.6 
人 -三 注 “最 短路 径 AP[ 的 查询 方法 ”)》 
public boolean hasPathToCint v)- -= 
- public, Iterable<Directed Edge> pathToCint.v) 





a , ; 
无 环 加 权 有 向 图 的 最 短路 径 算法 使 用 了 拓扑 排序 ( 算法 4.5， 重 载 了 EdgeWeightedDigraph 类 和 
DirectedEdge 类 ) 来 按照 拓扑 顺序 放松 所 有 顶点 ， 这 对 于 计算 出 图 中 的 最 短路 径 已 经 足够 了 。 


java AcyclicSP tinyEWDAG.txt 5 
(0.73): 5->4 0.35 4->0 0.38 
5->1 0.32 

5->7 0.28 7->2 0.34 
: 5->1 0.32 1->3 0.29 
0.35): 5->4 0.35 


a 
to 
to 
to 





% 

Ed 0 
5 1 
对 2 
5to3 
5 to 4 
5 to 5 
5 to 6 (1 13): 5->1 0.32 1->3 0.29 3->6 0.52 
5 to 7 (0.28): 5->7 0.28 
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命题 S 很 重要 ， 因 为 它 的 “无 环 ”能 够 极 大 地 简化 问题 的 论断 。 对 于 最 短路 径 问题 ， 基 于 拓扑 
排序 的 方法 比 Dijkstra 算法 快 的 倍数 与 Dijkstra 算法 中 所 有 优先 队列 操作 的 总 成 本 成 正比 。 另 外 ， 
命题 $ 的 证 明和 边 的 权重 是 否 非 负 无 关 ， 因 此 无 环 加 权 有 向 图 不 会 受到 任何 限制 。 下 面 用 这 个 特点 
解决 边 的 负 权重 问题 。 我 们 会 考虑 使 用 这 个 最 短路 径 模型 来 解决 另外 两 个 问题 ， 其 中 之 一 乍 一 看 其 
至 和 图 的 处 理 似乎 没有 任何 关系 。 

7 4.4.5.1 最 长 路 径 

考虑 在 无 环 加权 有 向 图 中 寻找 最 长 路 径 的 问题 ， 边 的 权重 可 正 可 负 。 

无 环 加 权 有 向 图 中 的 单 点 最 长 路 径 。 给 定 一 幅 无 环 加 权 有 向 图 ( 边 的 权重 可 能 为 负 ) 和 一 个 起 
点 s, 回 答 ” 全 交 < 如 果 有 ， 找 出 最 长 总 权重 最 大 ) 的 那 条 路 径 。” 
等 类 似 问题 。 4 

我们 刚刚 学 习 过 的 算法 能 够 快速 地 解决 这 个 问题 。 







拓 活 天 环 加 权 肌 因由 的 妆 攻 芝 公 问题 所 虽 的 时 间 与 成正 记 ， 


最 长 路 径 问 题 ， 复 制 原始 无 环 加 权 有 向 图 得 到 一 个 副本 并 将 副本 中 的 所 有 边 的 
这 样 ， 副 本 中 的 最 短路 径 即 为 原 图 中 的 最 长 路 径 。 要 将 用 短路 径 问 题 的 答案 转 
是 的 答案 ， 只 需 将 方案 中 的 权重 变 为 正 值 即 可 。 根 据 命题 S 立即 可 以 得 到 算法 
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根据 这 种 转换 实现 Acyc1icLP 类 来 寻找 一 幅 无 环 加 拓扑 指 订 。; ，。; 人 
权 有 向 图 中 的 最 长 路 径 就 十 分 简单 了 。 实 现 该 类 的 一 个 
更 简单 的 方法 是 修改 AcyclicsP， 将 distTo[] 的 初始 
值 变 为 Double.NEGATIVE_INFINITY 并 改变 relaxO 方 = 
法 中 的 不 等 式 的 方向 。 无 论 使 用 哪 种 方法 ， 都 能 得 到 无 2 
环 加 权 有 向 图 中 的 最 长 路 径 问题 的 一 种 高 效 的 解决 方案 。 


和 人 它 形 成 鲜明 对 比 的 是 ， 在 一 般 的 加 权 有 向 图 ( 边 的 权 ian 
重 可 能 为 负 ) 中 寻找 最 长 简单 路 径 的 已 知 最 好 算法 在 最 @ } 
坏 情况 下 所 需 的 时 间 是 指教 级 别 的 (请 见 第 6 章 )! 出 © NN 

现 环 的 可 能 性 似乎 使 这 个 问题 的 难度 以 指数 级 别 增长。 7 5 


4.4.14 是 算法 在 无 环 加 权 有 向 样 图 tinyEWDAG.txt 


1 5->1 





中 寻找 最 长 路 径 的 轨迹 ， 你 可 以 将 它 与 图 4.4.13 相 比较 。 3 
在 这 个 例子 中 ， 算 法 由 顶点 5 按照 以 下 步骤 构建 了 一 棵 i 
最 长 路 径 树 : 3 
口 用 深度 优先 搜索 得 到 图 的 顶点 的 拓扑 排序 5 1 3 
6.4 7 02 Ee 9 Fe 
口 将 项 点 5 和 从 它 指出 的 所 有 边 添加 到 树 中 ; 3 3 
口 将 顶点 1 和 边 1 一 3 添加 到 树 中 ; ‘a 
口 将 顶点 3 和 边 3 一 6、3 一 7 添加 到 树 中 ,. 边 ?32 
5 下 7 已 经 失效 ; 和 


口 将 顶点 6 和 边 6 一 2、6 一 4 和 6 一 0 添加 到 树 中 ; 
口 将 顶点 4 和 边 4 一 0、4 一 7 添加 到 树 中 ， 边 
6 一 0 和 3 一 7 已 经 失效 ; 2 
口 将 顶点 7 和 边 7 一 2 添加 到 树 中 , 边 6 一 2 已 经 
失效 ， : 

口 将 顶点 0 添加 到 树 中 ， 边 0 一 2 已 经 失效 ; 

口 将 项 点 2 添加 到 树 中 ( 未 画 出 ) 。 
' 最 长 路 径 算法 处 理 顶点 的 顺序 和 最 短路 径 算法 一 样 ， 
但 产生 的 结果 却 完全 不 同 。 < |662 
4.4.5.2 平行 任务 调度 

作为 算法 应 用 的 示例 ， 我 们 再 次 考虑 在 4.2 节 中 出 现 
过 的 任务 调度 类 的 问题 。 这 次 需要 解决 以 下 调度 问题 ( 楷 
体 部 分 为 与 4.2.4.1 节 的 问题 描述 的 不 同 之 处 ) 。 

优先 级 限制 下 的 并 行 任务 调度 。 给 定 一 组 需要 完成 
的 特定 任务 ， 以 及 一 组 关于 任务 完成 的 先后 次 序 的 优先 。 .图 3.4.14 无 未 图 中 的 最 长 路 径 算法 
级 限制 。 在 满足 限制 条 件 的 前 提 下 应 该 如 何在 若干 相同 ( 另 见 彩 插 ) 
的 处 理 器 上 ( 数量 不 限 ) 安排 任务 并 在 最 短 的 时 间 内 完 
成 所 有 任务 ? 

42 节 的 模型 默认 只 有 单个 处 理 器 : 将 任务 按照 拓扑 顺序 排序 ， 完 成 任务 的 总 耗 时 就 是 所 有 任 
务 所 需要 的 总 时 间 。 现 在 假设 有 足够 多 的 处 理 器 并 能 够 同时 处 理 任意 多 的 任务 ， 受 到 的 只 有 优先 级 








waewNpe 
v 
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的 限制 。 和 以 前 一样， 需要 处 理 的 任务 可 能 上 百 万 甚至 上 亿 ， 因 此 麦 4.4.5 一 个 任务 调度 问题 
需要 一 个 高 效 的 算法 。 令 人 兴奋 的 是 ， 正 好 存在 一 种 线性 时 间 的 算 。 一 一 一 在 
法 一 一 一 种 叫做 “关键 路 径 “的 方法 能 够 证 明 这 个 问题 与 无 环 加 权 时 耗 。 务 之 前 完成 
有 向 图 中 的 最 长 路 径 同 题 是 等 价 的 。 这 个 方法 已 成 功 应 用 于 无 数 的 ey 
工业 软件 之 中 。 51.0 .2 

假设 任意 可 用 的 处 理 器 都 能 在 任务 所 需 的 时 间 内 完成 它 ， 那 么 
我 们 的 重点 就 是 尽早 安排 每 一 个 任务 。 例 如 ， 表 4.4.5 给 出 了 一 个 3 
任务 调度 问题 ， 图 4.4.15 给 出 的 解决 方案 显示 了 这 个 问题 所 需 的 最 45.0 
短 时 间 为 173.0。 这 份 调度 方案 满足 了 所 有 限制 条 件 ， 没 有 其 他 调 21.0 
度 方案 能 比 它 耗 时 更 少 ， 因 为 任务 必须 按照 0 一 9 一 6 一 8 一 2 的 | 
顺序 完成 。 这 个 顺序 就 是 这 个 问题 的 关键 路 径 。 由 优先 级 限制 指定 29:0 
的 每 一 列 任务 都 代表 了 调度 方案 的 一 种 可 能 的 时 间 下 限 。 如 果 将 一 
系列 任务 的 长 度 定义 为 完成 所 有 任务 的 最 早 可 能 时 间 ， 那 么 最 长 的 
任务 序列 就 是 问题 的 关键 路 径 ， 因 为 在 这 份 任务 序列 中 任何 任务 的 
启动 延迟 都 会 影响 到 整个 项 目的 完成 时 间 。 


可 
EB 


oomowvaowhwnNmho 


ANww 


定义 。 解 决 并 行 任务 调度 问题 的 关键 路 径 方法 的 步 邓 如 下 : 创建 一 幅 无 环 加 权 有 向 图， 其 中 包 
含 一 个 起 点 5 和 一 个 终点 七 且 每 个 任务 都 对 应 着 两 个 顶点 ( 一 个 起 始 顶 点 和 一 个 结束 顶点 ) 。 
对 于 每 个 任务 都 有 一 条 从 它 的 起 始 顶 点 指向 结束 顶点 的 边 ， 边 的 权重 为 任务 所 项 的 时 间 。 对 于 
每 条 优先 级 限制 v 一 w， 添 加 一 条 从 v 的 结束 顶点 指向 Ww 的 起 始 顶 点 的 权重 为 零 的 边 。 我 们 还 
需要 为 每 个 任务 添加 一 条 从 起 点 指向 该 任务 的 起 始 顶 点 的 权重 为 零 的 边 以 及 一 条 从 该 任务 的 结 
ee 这 样 ， 人 
最 长 距离 。 





图 4.4.15 ”并行 任务 调度 问题 的 解决 方案 


图 4.4.16 显示 的 是 示例 任务 所 对 应 的 图 ， 图 4.4.17 则 显示 的 是 最 长 路 径 的 答案 。 如 定义 所 述 ， 
在 图 中 每 个 任务 都 对 应 着 三 条 边 《 从 起 点 到 起 始 项 点 、 从 结束 顶点 到 终点 的 权重 为 零 的 边 ， 以 及 一 
条 从 起 始 顶点 到 结束 项 点 的 边 ) ， 每 个 优先 级 限制 条 件 都 对 应 着 一 条 边 。 后 面 框 注 “优先 级 限制 下 
的 并 行 任务 调度 问题 的 关键 路 径 方法 ”中 的 CPM 类 简洁 明了 地 实现 了 关键 路 径 方法 。 它 能 够 将 任意 
任务 调度 问题 转化 为 无 环 加 权 有 向 图 中 的 一 个 最 长 路 径 问题 ， 用 Acyc1icLP 解决 它 并 打印 出 每 个 
任务 的 开始 时 间 以 及 调度 方案 的 结束 时 间 。 
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任务 的 起 始 顶点 ”任务 的 结束 项 点 优先 级 限制 
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图 4.4.16 任务 调度 问题 的 无 环 加 权 有 向 图 表示 


oa , 
i OE oO -一 CO 
i xm 各 


OD © 


45 








29 





图 4.4.17 任务 调度 示例 问题 的 最 长 路 径 解决 方案 人 











优先 级 限制 下 的 并 行 任务 调度 问题 的 关键 路 径 方法 


public class CPM 





{ a . % more jobsPC. 
public static void main(String[] args) wt 
{ 10 
int N = StdIn.readInt(); StdIn.readLineO; 41.0 179 
EdgeweightedDigraph G; 51.0 2 
G = new EdgeWeightedDigraph(2*N+2); 50.0 
int s = 2*N，t = 24N+1; 36.0 
for (int 1 = 0; i < N; i++) 38.0 
{ 45.0 
String[] a = StdIn.readLineC) .split("\\s+"); i 
double duration = Double.parseDaubleCa[0]); 0 
G.addEdge(new DirectedEdge(i, i+N, duration)); 29'0 46 


G.addEdge(new DirectedEdge(s, 0.0)); 


G.addEdge(new DirectedEdge(i+N, t, 0.0)); 
for (int j = 1; j < a.length; j++) 





int successor = Integer.parseInt(a[j]); 
G.addEdge(new DirectedEdge(i+N, successor, 0.0)); 
} 
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AcyciicLP 1p = new AcyclicLP(G, s); 


% java CPM < 

StdOut .printlnC"Start times:"); 人 jobsPC.txt 
for Cint i =0; 1 < N; i++) Start times: 
StdOut .printf("%4d: %5.1f\n", i, 1p.distTo(i)); 0:0 


StdOut.printf("Finish time: %5.1f\n", lp.distTo(t)); 
} 


} 


这 里 实现 的 任务 调度 问题 的 关键 路 径 方法 将 问题 归 约 为 寻找 无 环 加 权 有 向 
图 的 最 长 路 径 问题 。 它 会 根据 任务 调度 问题 的 描述 用 关键 路 径 的 方法 构造 一 幅 和 
加 权 有 向 图 ( 且 必 然 是 无 环 的 ) ， 然 后 使 用 Acyc1icLP ( 请 见 命题 T ) 找到 图 和 a 
中 的 最 长 路 径 树 ， 最 后 打印 出 各 条 最 长 路 径 的 长 度 ， 也 就 正好 是 每 个 任务 的 开 ee 
始 时 间 。 二 一 和 : 这 





命题 U。 解 决 优先 级 限制 下 的 并 行 任务 调度 问题 的 关键 路 径 法 所 需 的 时 间 为 线性 级 别 。 


证 明 。 为 什么 CPM 类 能 够 解决 问题 ? 算法 的 正确 性 依赖 于 两 个 因素 。 首 先 ， 在 相应 的 有 向 无 环 
图 中 ， 每 条 路 径 都 是 由 任务 的 起 始 顶点 和 结束 顶点 组 成 的 并 由 权重 为 零 的 优先 级 限制 条 件 的 边 
分 阳 一 一 从 起 点 s 到 任意 顶点 v 的 任意 路 径 的 长 度 都 是 任务 v 的 开始 /结束 时 间 的 下 限 ， 因 为 
这 已 经 是 在 同一 台 处 理 器 上 顺序 完成 这 些 任务 的 最 优 的 排列 顺序 了 。 因 此 ， 从 起 点 s 到 终点 七 
的 最 长 路 径 就 是 所 有 任务 的 完成 时 间 的 下 限 。 第 二 ， 由 最 长 路 径 得 到 的 所 有 开始 和 结束 时 间 都 
是 可 行 的 一 一 每 个 任务 都 只 能 在 优先 级 限制 指定 的 先导 任务 完成 之 后 开始 ， 因 为 它 的 开始 时 间 
就 是 顶点 到 它 的 起 始 顶 点 的 最 长 路 径 的 长 度 。 因 此 ， 从 起 点 s 到 终点 七 的 最 长 路 径 长 度 就 是 所 
有 任务 完成 时 间 的 上 限 。 由 命题 很 容易 得 到 算法 所 需 的 时 间 是 线性 的 。 


4.4.5.3 ”相对 最 后 期 限 限制 下 的 并 行 任务 调度 ，- 

一 般 的 最 后 期 限 ( deadline ) 都 是 相对 于 第 一 个 任务 的 开始 时 间 而 言 的 。 假 设 在 任务 调度 问题 
中 加 入 一 种 新 类 型 的 限制 ， 需 要 某 个 任务 必须 在 指定 的 时 间 点 之 前 开始 ， 即 指定 和 另 一 个 任务 的 开 
始 时 间 的 相对 时 间 。 这 种 类 型 的 限制 条 件 在 争分夺秒 的 生产 线 上 以 及 许多 其 他 应 用 中 都 很 常见 ， 但 
它 也 会 使 得 任务 调度 问题 更 难 解决 。 例 如 ， 如 表 4.4.6 所 示 ， 假 设 要 在 前 面 的 示例 中 加 入 一 个 限制 
条 件 ， 使 2 号 任务 必须 在 4 号 任务 启动 后 的 12 个 时 间 单位 之 内 开始 。 实 际 上 ， 在 这 里 最 后 期 限 限 
制 的 是 4 号 任务 的 开始 时 间 ， 它 的 开始 时 间 不 能 早 于 2 号 任务 开始 12 个 时 间 单位 。 在 示例 中 ， 调 
度 表 中 有 足够 的 空 档 来 满足 这 个 最 后 期 限 限制 : 我 们 可 以 令 4 号 任务 开始 于 111 时 间 ， 即 2 号 任务 
计划 开始 时 间 前 的 12 个 时 间 单位 处 。 需 要 注意 的 是 ， 如 果 4 号 任务 耗 时 很 长 ， 这 个 修改 可 能 会 延 


- 长 整个 调度 计划 的 完成 时 间 。 同 理 ， 如 果 再 添加 一 个 最 后 期 限 的 限制 条 件 ， 令 2 号 任务 必须 在 7 号 


任务 启动 后 的 70 个 时 间 单 位 内 开始 ， 还 可 以 将 7 号 任务 的 开始 时 间 调 整 到 53， 这 样 就 不 用 修改 3 
号 任务 和 8 号 任务 的 计划 开始 时 间 。 但 是 如 果 继 续 限制 4 号 任务 必须 在 零 号 任务 启动 后 的 80 个 时 
间 单 位 内 开始 ;那么 就 不 存在 可 行 的 调度 计划 了 : 限制 条 件 4 号 任务 必须 在 0 号 任务 启动 后 的 80 
个 时 间 单 位 内 开始 以 及 2 号 任务 必须 在 4 号 任务 启动 后 的 12 个 时 间 单位 之 内 开始 ， 意 味 着 2 号 任 、 


务必 须 在 0 号 任务 启动 后 的 93 个 时 间 单 位 之 内 开始 , 但 因为 存在 任务 链 0( 41 个 时 间 单 位 ) 一 9(29 . 


个 时 间 单 位 ). 一 6 (21 个 时 间 单位 ) 一 8 (32 个 时 间 单位 ) 一 2，2 号 任务 最 早 也 只 能 在 0 号 任务 
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启动 后 的 123 个 时 间 单位 之 内 开始 如 表 4.4.7 所 示 。 最 后 期 限 。 表 4.4.6 相对 最 后 期 限 限制 下 的 








的 限制 越 多 ， 调 度 的 可 能 性 也 就 越 多 ， 简 单 的 问题 也 会 变 得 越 任务 调度 
困难 。 原始 问题 
表 4.4.7 ”向 任务 调度 问题 中 添加 的 最 后 期 限 限制 Es 
任务 相对 最 后 期 限 相对 于 任务 1 41.0 
. 12.0 4 2 123.0 
70.0 7 | 
4 80.0 0 5 0.0 
6 70.0 
7 41.0 
命题 V。 相 对 最 后 期 限 限制 下 的 并 行 任务 调度 问题 是 一 个 2 2 
加 权 有 向 图 中 的 最 短路 径 问 题 ( 可 能 存在 环 和 负 权 重 边 ) 。 2 号 任务 如 须 在 4 
号 任务 启动 后 的 12 
证 明 。 与 命题 U 一 样 根据 任务 调度 的 描述 构造 相同 的 加 和 
权 有 向 图 ， 为 每 条 最 后 期 限 限制 添加 一 条 边 :， 如 果 任 务 v A 


41.0 


必须 在 任务 W 启 动 后 的 d 个 时 间 单位 内 开始 ， 则 添加 一 
条 从 v 指 向 内 的 负 权 重 为 d 的 边 。 将 所 有 边 的 权重 取 反 ee 
即 可 将 该 问题 转化 为 一 个 最 短路 径 问题 。 如 果 存 在 可 行 4 111.0 
的 调度 方案 ， 证 明 也 就 完成 了 。 你 将 会 看 到 ， 判 断 一 个 和 
调度 方案 是 否 可 行 也 是 计算 的 一 部 分 。 ? 


41.0 
91.0 
9 41.0 


2 号 任务 避 须 在 7 


这 个 示例 说 明了 负 权 重 的 边 在 实际 应 用 的 模型 中 也 能 起 





到 重要 的 作用 。 它 说 明 ， 如 果 能 够 有 效 解决 负 权重 边 的 最 短路 2 
径 问题 ， 那 就 能 够 找到 相对 最 后 期 限 限制 下 的 并 行 任务 调度 问 人 开始 M 间 
题 的 解决 方案 。 我 们 已 经 学 习 过 的 算法 都 无 法 完成 这 个 任务 : 0 0.0 
Dijkstra 算法 只 适用 于 正 (或 零 ) 权重 的 边 ,算法 4.10 要 求 有 tt 
向 图 是 无 环 的 。 下 面 我 们 来 看 看 如 何 解决 含有 人 负 权重 且 不 一 定 3 0 
是 无 环 的 有 向 图 中 的 最 短路 径 问题 ( 请 见 图 4.4.18 ) 。 的 
6 70.0 
4.4.6 “一般 加 权 有 向 图 中 的 最 短路 径 问题 0 
刚才 讨论 过 的 最 后 期 限 限制 下 的 任务 调度 问题 告诉 我 们 负 9 41.0 

权重 的 边 并 不 仅仅 是 一 个 数学 问题 。 相 反 ， 它 能 够 极 大 地 扩展 Wn 
解决 最 短路 径 问题 的 模型 的 应 用 范围 。 接 下 来 ， 考 虑 既 可 能 含 人 


有 环 也 可 能 含有 负 权重 的 边 的 加 权 有 向 图 中 的 最 短路 径 算法 。 

在 开始 之 前 ， 先 来 学 习 一 下 这 种 有 基本 性 质 以 更 新 我 们 对 最 短路 径 的 认识 。 图 4.4.19 是 一 个 
小 小 的 示例 ， 展 示 的 是 负 权重 的 边 对 有 向 图 中 的 最 短路 径 的 影响 。 也 许 最 明显 的 改变 就 是 当 存在 负 
权重 的 边 时 ， 权 重 较 小 的 路 径 含有 的 边 可 能 会 比 权重 较 大 的 路 径 更 多 。 在 只 存在 正 权重 的 边 时 ， 我 
们 的 重点 在 于 寻找 近 路 ; 但 当 存在 负 权 重 的 边 时 ， 我 们 可 能 会 为 了 经 过 负 权 重 的 边 而 绕 普 。 这 种 效 
应 使 得 我 们 要 将 查找 “最 短 "路 径 的 感觉 转变 为 对 算法 本 质 的 理解 。 因 此 需要 抛弃 直觉 并 在 一 个 简单 、 
抽象 的 层面 上 考虑 这 个 问题 。 
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图 4.4.18 ”相对 最 后 期 限 限制 和 优先 级 限制 下 的 并 行 任务 调度 问题 的 加 权 有 向 图 表示 


4.4.6.1 尝试 I 

- 第 一 个 想法 是 先 找到 权重 最 小 ( 最 小 的 
负 值 ) 的 边 ， 然 后 将 所 有 边 的 权重 加 上 这 个 
负 值 的 绝对 值 ， 这 样 原 有 向 图 就 转变 称 为 了 
一 幅 不 含有 负 权重 边 的 有 向 图 。 这 种 天 真 的 
做 法 不 会 解决 任何 问题 ， 因 为 新 图 中 的 最 短 
路 径 和 原 图 中 的 最 短路 径 毫 无 关系 。 路 径 中 
的 边 越 多 ， 这 种 变换 产生 的 危害 越 大 ( 请 见 
练习 4.4.14) 。 
4.4.6.2 .将 试 代 

第 二 个 想法 是 尝试 改造 Dijkstra 算法 。 

这 种 方法 最 根本 的 缺陷 在 于 原 算法 的 基础 在 
于 根据 距离 起 点 的 远近 依次 检查 路 径 。 命 题 
RR 对 算法 正确 性 的 证 明 是 基于 添加 一 条 边 会 
使 的 路 径 变 得 更 长 的 假设 。 但 添加 任意 负 权 
_ 重 的 边 只 会 使 得 路 径 更 短 ， 因 此 这 个 假设 是 

“不成立 的 (请 见 练 习 4.4.14) 。 

566| 4.4.6.3 ” 负 权重 的 环 

668 当 我 们 在 研究 含有 负 权 重 边 的 有 向 图 时 ， 图 4419 含有 负 权 重 的 过 的 轴 权 有 向 图 
如 果 该 图 中 含有 一 个 权重 为 负 的 环 ， 那 么 最 
短路 径 的 概念 就 失去 意义 了 。 例 如 图 4.4.20， 除 了 边 5 一 4 的 权重 为 -0.66 外 ， 它 和 第 一 个 示例 完 
全 相同 。 这 里 ， 环 4 一 7 一 5 一 4 的 权重 为 : 

0.37+0.28-0.66=-0.01 
我 们 只 要 围 着 这 个 环 多 圈子 就 能 得 到 权重 任意 短 的 路 径 ! 注意 ， 有 向 环 的 所 有 边 的 权重 并 不 一 

定 都 必须 是 负 的 ， 只 要 权重 之 和 是 负 的 即 可 





edoeTor] distTof] 


5->1 0.93 
0->2 0.26 
7->3 .0 
6->4 0.26 
4->5 0.61 
3->6 1,51 
2->7 0 
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图 中 的 负 权 重 环 是 一 个 总 权重 ( 环 上 的 所 有 边 的 权重 之 和 ) 为 负 的 有 向 环 。 
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现在 ,假设 从 s 到 可 达 的 某 个 顶点 v 的 路 径 上 的 某 个 顶点 在 一 个 负 权重 环 上 。 在 这 种 情况 下 ， 


从 s 到 v 的 最 短路 径 是 不 可 能 存在 的 ， 因 为 可 以 用 这 个 负 权重 环 构造 权重 任意 小 的 路 径 。 换 句 话说 ， 


在 负 权重 环 存在 的 情况 下 ， 最 短路 径 问题 是 没有 意义 的 ， 如 图 4.4.21 所 示 。 





命题 W。 当 且 仅 当 加 权 有 向 图 中 至 少 存在 一 条 从 s 到 v 的 有 向 路 径 且 所 有 从 s 到 v 的 有 向 路径 


上 的 任意 顶点 都 不 存在 于 任何 负 权 重 环 中 时 ， s 到 v EN 


证 明 。 请 见 以 上 讨论 以 及 练习 4.4.29。 
注意 ， 要 求 最 短路 径 上 的 任意 项 点 都 不 存在 负 权重 环 意味 着 最 短路 径 是 简单 的 ， 而 且 与 正 权 重 


边 的 图 一 样 都 能 够 得 到 此 类 项 点 的 最 短路 径 树 。 


tinyEWDnc .txt 





64 0.93 


从 顶点 0 到 顶点 6 的 最 短路 径 


0->4->7->5->4->7->5…->1->3->6 


图 44.20 含有 负 权重 环 的 加 权 有 向 图 ( 另 见 彩 插 ) 图 4.4.21 最 短路 径 问题 的 各 种 可 能 性 〈 另 见 彩 插 ) 


4.4.6.4 “尝试 II 


无 论 是 否 存在 负 权重 环 ， 从 s 到 可 达 的 其 他 顶点 的 一 条 最 短 的 简单 路 径 都 是 存在 的 。 为 什么 不 
定义 最 短路 径 以 方便 寻找 呢 ? 不 幸 的 是 ， 已 知 解决 这 个 问题 的 最 好 算法 在 最 坏 情况 下 所 和 需 的 时 间 是 
指数 级 别 的 《请 见 第 6 章 ) 。 一 般 来 说 ， 我 们 认为 这 种 问题 “ 太 难 了 ”， 





灰色 : 从 s 不 可 达 的 顶点 


1 
红 边 轮 廊 ， 不 存在 从 s 到 达 该 项 点 的 最 短路 径 


只 会 研究 它 的 简单 版 本 。 


因此 ， 一 个 定义 明确 且 可 以 解决 加 权 有 向 图 最 短路 径 问题 的 算法 要 能 够 : 
口 对 于 从 起 点 不 可 达 的 顶点 ， 最 短路 径 为 正 无 穷 ( +% ) ; 


口 对 于 从 起 点 可 达 但 路 径 上 的 某 个 顶点 属于 一 个 负 权 重 环 的 顶点 ， 最 短路 径 为 负 无 穷 is 


日 对 于 其 他 所 有 顶点 ,计算 最 短路 径 的 权重 ( 以 及 最 短路 径 树 ) 。 
从 本 节 的 开始 ， 我 们 会 不 断 为 最 短路 径 问 题 加 上 各 各 限制 并 找到 解决 相 应 问题 的 办 法 。 首先 ， 
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我 们 不 允许 负 权重 边 的 存在 ; 其 次 不 接受 有 向 环 。 现 在 我 们 放宽 所 有 这 些 条 件 并 重点 解决 一 般 有 向 
图 中 的 以 下 问题 。 

负 权重 环 的 检测 。 给 定 的 加 权 有 向 图 中 含有 负 权 重 环 吗 ? 如 果 有 ， 找 到 它 。 

负 权 重 环 不 可 达 时 的 单 点 最 短路 径 。 给 定 -- 幅 加 权 有 向 图 和 一 个 起 点 s 且 从 s 无 法 到 达 任 何 负 
权重 环 ， 回 答 “ 是 否 存在 一 条 从 s 到 给 定 的 顶点 v 的 有 向 路 径 ? 如 果 有 ， 找 出 最 短 ( 总 权重 最 小 ) 
的 那 条 路 径 。” 等 类 似 问 题 。 

总 结 。 尽 管 在 含有 环 的 有 向 图 中 最 短路 径 是 一 个 没有 意义 的 问题 ， 而 且 也 无 法 有 效 解决 在 这 种 
有 向 图 中 高 效 找 出 最 短 简单 路 径 的 问题 ， 在 实际 应 用 中 仍然 需要 能 够 识别 其 中 的 负 权重 环 。 例 如 ， 
在 最 后 期 限 限制 下 的 任务 调度 问题 中 ， 负 权重 环 的 出 现 可 能 相对 较 少 : 限制 条 件 和 最 后 期 限 都 是 从 
现实 世界 中 的 实际 限制 得 来 的 ， 因 此 负 权 重 环 大 多 可 能 来 自 于 问题 陈述 中 的 错误 。 找 出 负 权重 环 ， 
改正 相应 的 错误 ， 找 到 没有 负 权 重 环 问题 的 调度 方案 才 是 解决 问题 的 正确 方式 。 在 其 他 情况 下 ， 找 
到 负 权重 环 就 是 计算 的 目标 。 下 面 这 个 由 R.Bellman 和 L.Ford 在 20 世纪 50 年 代 末 期 发 明 的 算法 能 

区 9 够 简明 、 有 效 地 解决 这 些 问题 并 且 同 样 适用 于 正 权重 边 的 有 向 图 。 


命题 X (Bellman-Ford 算法 ) 。 在 任意 含有 /个 顶点 的 加 权 有 向 图 中 给 定 起 点 s， 从 s 无 法 到 
达 任何 负 权 重 环 ， 以 下 算法 能 够 解决 其 中 的 单 点 最 短路 径 问题 : 将 distTo[s] 初始 化 为 0， 其 他 
distTo[] 元 素 初始 化 为 无 穷 大 。 以 任意 顺序 放松 有 向 图 的 所 有 边 ， 重 复 太 轮 。 


证 明 。 对 于 从 s 可 达 的 任意 顶点 t， 考 虑 从 s 到 七 的 一 条 最 短路 径 : ww 一 一 一 Ve， 其 
中 vo 等 于 s， vi 等 于 t。 因 为 负 权 重 环 是 不 可 达 的 ， 这 样 的 路 径 是 存在 的 且 上 不 会 大 于 WV-1。 

我 们 会 通过 归纳 法 证 明 算法 在 第 1 轮 之 后 能 够 得 到 s 到 vi 的 最 短路 径 。 最 简单 的 情况 ( i=0 ) 

很 容易 。 假 设 对 于 了 命题 成 立 ， 那 么 5 到 vi 的 最 短路 径 即 为 vw 一 Vi 一"… 一 Vi 由 stTorv] 
就 是 这 条 路 径 的 长 度 。 现 在 ,我 们 在 第 了 轮 中 放松 所 有 的 顶点 ， 包 括 vi， 因此 distTo[vi] 
不 会 大 于 istTo[vi] 与 边 Vi 一 Vin 的 权重 之 和 。 在 第 1 辊 放松 之 后 ，distTo[ys1] 必然 等 于 
distTo[vi] 与 边 v 一 vii 的 权重 之 和 。 它 不 可 能 更 大 ， 因 为 在 第 了 轮 中 放松 了 所 有 顶点 ， 包 
括 vi 它 也 不 可 能 更 小 ， 因 为 它 就 是 路 径 Vo 一 Vi 一 … 一 Vmi 的 长 度 ， 也 就 是 最 短路 径 了 。 因 
此 ， 在 计 1 轮 之 后 算法 能 够 得 到 从 s 到 viw 的 最 短路 径 。 


命题 W ( 续 ) 。 Bellman_Ford 算法 所 区 的 时 间 和 Ey 成 正比 ， 空间 和 米 成 正比 。 
证 明 。 在 每 一 轮 中 算法 都 会 放松 条 边 ， 共 重复 矿 轮 。 


这 个 方法 非常 通用 ， 因 为 它 没有 指定 边 的 放松 顺序 。 下 面 将 注意 力 集中 在 一 个 通用 性 稍 逊 的 方 
法 上 ， 其 中 只 放松 从 任意 项 点 指出 的 所 有 边 〈 顺序 任意 ) ， 以 下 代码 说 明了 这 种 方法 的 简洁 性 : 


for (int pass = 0; pass < G.VO; pass++) 
for (v= 0; v < GCG.VO; v++) 
for (DirectedEdge e : G.adj(v)) 
relax(e); 


i 我 们 不 会 仔细 研究 这 个 版 本 ， 因 为 它 总 是 会 放松 VE 条 边 且 只 需 稍 作 修改 即 可 使 算法 在 一 般 的 
[加 十 应 用 场景 中 更 加 高 效 < 
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4.4.6.5 ”基于 队列 的 Beliman-Ford 算法 

其 实 ,根据 经 验 我 们 很 容易 知道 在 任意 一 轮 中 许多 边 的 放松 都 不 会 成 功 : 只 有 上 一 轮 中 的 
distTo[] 值 发 生变 化 的 顶点 指出 的 边 才能 够 改变 其 他 distTo[] 元 素 的 值 。 为 了 记录 这 样 的 顶点 ， 
我 们 使 用 了 一 一 条 FIFO 队列 。 算 法 在 处 理 正 权重 标准 样 图 中 进行 的 操作 如 图 4.4.22 所 示 。 在 示意 图 
4.4.22 左 侧 是 每 一 轮 中 队列 中 的 有 效 顶 点 ( 红色 ) ， 紧 接着 是 下 一 轮 中 的 有 效 顶 点 ( 黑色) 。 首 先 
将 起 点 加 入 队列 ， 然 后 按照 以 下 步骤 计算 最 短路 径 树 。 

口 放松 边 1 3 并 将 顶点 3 加 入 队列 。 

口 放松 边 3 一 6 并 将 顶点 6 加 入 队列 。 

口 放松 边 6 一 4、6 一 0 和 6 一 2 并 将 顶点 4、0 和 2 加 入 队列 。 

口 放松 边 4 一 7、4 一 5 并 将 顶点 7 和 4 加 入 队列 。 放 松 已 经 失效 的 边 0-*4 和 0， 2。 然 后 再 

”放松 边 2 一 7 (并 重新 为 4 一 7 着 色 ) 。 

口 放松 边 7 5 (并 重新 为 4 一 5 着 色 ) 但 不 将 顶点 5 加 入 队列 ( 它 已 经 在 队列 之 中 了 ) 。 放 

松 已 经 失效 的 边 7 一 3。 然后 放松 已 经 失效 的 边 5 一 1、5 一 4 和 5-7。 此 时 队列 为 空 。 


SN 和 edgeTol] “en 
1 @ é a @ 
3 > 全 
py -人 @` 1->3 SA 
@ - ©®. 7 2->7 
: a one 
9 





edgeTo[] 
6->0 

0 

6->2 
1->3 
6->4 
7->5 
3->6 
2->7 





vewewvpe 


“黑色 : 下 一 轮 的 有 效 顶 点 . 


图 4.4.22 Bellman-Ford 算法 的 轨迹 ( 另 见 彩 插 ) 


4.4.6.6 实现 
根据 这 些 描述 实现 Bellman-Ford 算法 所 需 的 代码 非常 少 ， 如 算法 4.11 所 示 。 它 基 于 以 下 两 种 
其 他 的 数据 结构 : 
口 一 条 用 来 保存 即将 被 放松 的 顶点 的 队列 q; 
口 一 个 由 顶点 索引 的 boolean 数组 onQ[] , DNAS 以 防止 将 . [672 
顶点 重复 插 人 队列 。 
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首先 ,将 起 点 s 加 入 队列 中 ， 
然后 进入 一 个 循环 ， 其 中 每 次 
都 从 队列 中 取出 一 个 顶点 并 将 
其 放松 。 要 将 一 个 顶点 插入 队 
列 , 需要 修改 4.4.2.4 节 框 注 “ 边 


private void relax(EdgeweightedDigraph G, int v) 
{ 
for (DirectedEdge e : 
int W = e€.to0); 
if (distTo[w] > distTo[v] + e.weight()) 


G-adjCv) 








673] 








f 
的 松 驰 ” 中 relaxQ 方法 的 实 distTo[w] = distTofv] + e.weight(); 
现 ， 以 便 将 被 成 功放 松 的 边 所 Te 
指向 的 顶点 加 入 队列 中 ， 如 右 


边框 注 “Bellman-Ford 算法 中 


queue .enqueueCw) ; 


的 放松 操作 ”所 示 。 这 些 数据 a 

结构 能 够 保证 : fe costr x cvO = 0 
口 队列 中 不 出 现 重复 的 顶点 和 ndNegativeCycIeO 
口 在 某 一 轮 中 ; 改变 了 edg- 


eTo[] 和 distTo[] 的 值 
的 所 有 顶点 都 会 在 下 一 轮 0 
中 处 理 。 by 
要 完整 地 实现 该 算法 ， 我 们 就 需要 保证 在 上 轮 后 算法 能 够 终止 。 实现 它 的 一 种 方法 是 显 式 记录 
放松 的 轮 数 。 我 们 的 实现 Be1llmanFordSP (算法 4.11 ) 使 用 了 另 一 种 方法 ， 将 会 在 4.4.6.8 节 详 述 : 
它 会 在 有 向 图 的 edgeTo[] 中 检测 是 否 存在 负 权重 环 ， 如 果 找 到 则 结束 运行 。 


Bellman-Ford 算 法 中 的 放松 操作 


命题 Y。 对 于 任意 合 有 KV 个 顶点 的 加 权 有 向 图 和 给 定 的 起 点 s， 在 最 坏 情况 下 基于 队列 的 
te ee nh be dia de 
空间 入 成 正比 。 : 


证 明 。 如 果 不 存 在 从 s 可 达 的 负 权 重 环 ， 算 法 会 根据 命题 X 在 进行 [1 轮 放松 操作 后 结束 ( 因 
为 所 有 最 短路 径 含有 的 边 数 都 小 于 V-1) 。 如 果 的 确 存 在 一 个 从 s 可 达 的 负 权 重 环 ， 那么 队列 
永远 不 可 能 为 空 。 根 据 命题 XX， 在 第 依 轮 放 松 之 后 ，edgeTo[] 数组 必然 会 包含 一 条 含有 一 个 
环 的 路 径 ( 从 某 个 顶点 w 回 到 它 自己 ) 且 该 环 的 权重 必然 是 负 的 。 因 为 w 会 在 路 径 上 出 现 两 次 
且 s 到 Ww 的 第 二 次 出 现 处 的 路 径 长 度 小 于 s 到 w 的 第 一 次 出 现 的 路 径 长 度 。 在 最 坏 情况 下 ， 该 
算法 的 行为 和 通用 算法 相似 并 会 将 所 有 的 条 边 全 部 放松 VV 办 。 


算法 4.11 基于 队列 的 Beliman-Ford 算法 


public*class BellmanFordSPp 
所 





private double[] distTo; 

private DirectedEdge[] edgeTo; -< ~. 
private boalean[] onQ; 

private Queue<Integer> queue; 

private int cost; 

private Iterable<DirectedEdge> cycle; 


7// 从 起 点 到 其 个 顶点 的 路径 长 度 
// 从 起 点 到 某 个 顶点 的 最 后 一 条 边 
// 该 顶点 是 否 存在 于 队列 中 

// 正在 被 放松 的 顶点 

// relax() 的 调用 次 数 

// edgeTo[] 中 的 是 否 有 负 权 重 环 
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public BellmanFordSP(EdgeweightedDigraph G，int s) 
{ 


distTo = new double[G.VO]; 
edgeTo = new DirectedEdge[G.VO]; 
onQ = new boolean[G.VO]; 
queue = new Queue<Integer>(); 
for (int v = 0i:y < G.VO; vi+) 
distTo[v] = Double.POSITIVE_INFINITY; 
distTo[s] = 0.0; 
queue.enqueue(s); 
onQ[s] = true; 
while (!queue.isEmpty() && !this.hasNegativeCycle()) 
本 





int v = queue.dequeue(); 
onQ[v] = false; 
relax(G, W; 
} 
} 


private void relax(EdgeWeightedDigraph G,v) 
// 4.4.6.6 节 似 注 “Bel1iman-Ford 算 法 的 放 恰 操作 


public double distToCint v) // 最 短路 径 树 实现 中 的 标准 查询 算法 (请 见 4.4.2.6 节 “最 短路 
径 API 的 查询 方法 ”) 

public boolean haspPathToCint v) 

public Iterable<Edge> pathTo(int v) // 4.4.6.8 节 要 广 “Beliman-Ford” 的 负 权 重 检测 方法 


private void findNegativeCycle() 
public boolean hasNegativeCycle() 
public Iterable<Edge> negativeCycle() 


// 请 见 6.4.6.8 节 
} 
Beliman-Ford 算法 的 实现 修改 了 relax() 方法 ， 将 被 成 功放 松 的 边 指向 的 所 有 顶点 加 入 到 一 条 
FIFO 队列 中 ( 以 避免 出 现 重复 顶点 ) 并 周期 性 地 检查 edgeTo[] 表示 的 子 图 中 是 否 存在 负 权重 环 (请 
见 正文 ) 。 7 








基于 队列 的 Bellman-Ford 算法 能 够 准确 有 效 地 解决 最 短路 径 问题 并 且 在 实际 中 被 广 泛 应 用 , 其 
至 包括 正 权重 的 情况 。 例 如 ， 如 图 4.4.23 所 示 ， 在 含有 250 个 顶点 的 样 图 中 ， 算 法 进行 了 14 轮 操 
作 且 对 于 相同 的 问题 比较 路 径 长 度 的 次 数 少 于 Dijkstra 算法 。 
4.4.6.7 ” 负 权重 的 边 
图 4.4.24 显示 了 Bellman-Ford 算法 在 处 理 含有 负 权重 边 的 有 向 图 的 轨迹 。 首先 将 起 点 加 入 队列 
9， 然 后 按照 以 下 步骤 计算 最 短路 径 树 。 
口 放松 边 0 一 2 和 0 一 4 并 将 顶点 2、4 加 入 队列 。 
口 放松 边 2 一 7 并 将 顶点 7 加 入 队列 。 放 松 边 4 一 5 并 将 顶点 5 加 入 队列 。 然后 放松 失效 的 边 
sy 和 
口 放松 边 7 一 3 和 5 一 1 并 将 顶点 3 和 1 加 入 队列 。 放 松 失 效 的 边 5 一 4 和 5 一 7。 
口 放松 边 3 一 6 并 将 顶点 6 加 入 队列 。 放 松 失 效 的 边 1 一 3。 
口 放松 边 6 一 4 并 将 顶点 4 加 入 队列 。 这 条 负 权 重 边 使 得 到 顶点 4 的 路 径 变 短 ， 因 此 它 的 边 需 
要 被 再 次 放松 ( 它们 在 第 二 轮 中 已 经 被 放松 过 ) 。 从 起 点 到 顶点 5 和 1 的 距离 已 经 失效 并 
会 在 下 一 轮 中 修正 。 
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口 放松 边 4 一 5 并 将 顶点 5 加 入 队列 。 放 松 失效 的 边 


轮 数 
4 一 7。 和 
口 放松 边 5 一 1 并 将 顶点 1 加 入 队列 。 放 松 失 效 的 边 
5 一 4 和 5 一 7。 有 


口 放松 无 效 的 边 1 一 3。 队 列 为 空 。 
在 这 个 例子 中 ， 最 短路 径 树 就 是 一 条 从 顶点 0 到 顶点 
1 的 路 径 。 从 顶点 4、5 和 1 指出 的 所 有 边 都 被 放松 了 两 次 。 


对 照 这 个 例子 重读 命题 X 的 证 明 能 够 帮助 你 更 好 的 理解 这 A 
个 算法 。 7 
4.4.6.8” 负 权重 环 的 检测 
实现 Be1lmanFordSP 会 检测 负 权 重 环 来 避免 陷入 无 
限 的 循环 中 。 我 们 也 可 以 将 这 段 检测 代码 独立 出 来 使 得 用 
例 可 以 检查 并 得 到 负 权重 环 。 因 此 我 们 为 表 4.4.4 中 的 API 
添加 以 下 方法 请 见 表 4.4.8。 


表 4.4.8 为 处 理 负 权重 环 扩展 最 短路 径 的 API 
boolean hasNegativeCycleO 是否 含有 负 权 
重 环 
Iterable<DirectedEdge> negativeCycle() 得 到 负 权 重 环 


(如 果 没 有 则 
返回 nu11) 





实现 这 些 方法 并 不 困难 ， 如 以 下 代码 所 示 。 在 »3 
Be11manFordSP 的 构造 函数 运行 之 后 ,命题 Y 说 明 在 将 
所 有 边 放 松 上 轮 之 后 当 且 仅 当 队 列 非 空 时 有 向 图 中 才 存 
在 从 起 点 可 达 的 负 权 重 环 。 如 果 是 这 样 ，edgeTo[] 数组 
所 表示 的 子 图 中 必然 含有 这 个 负 权重 环 。 因 此 ， 要 实现 
negativeCycle()， 会 根据 edgeTo[] 中 的 边 构造 一 幅 加 
权 有 向 图 并 在 该 图 中 检测 环 。 我 们 会 使 用 并 修改 4.2 节 中 最 短 
的 DirectedCycle 类 来 在 加 权 有 向 图 中 寻找 环 ( 请 见 练 。 ”路 径 树 
习 4.4.12 ) 。 这 种 检查 的 成 本 分 为 以 下 几 个 部 分 。 
口 添加 一 个 变量 cycle 和 一 个 私有 函数 findNega- 
tive-Cycle()。 如 果 找到 负 权 重 环 ， 该 方法 会 将 
cycle 的 值 设 为 含有 环 中 所 有 边 的 一 个 迭代 器 (如 
果 没 有 找到 则 设 为 nu11 ) 。 
口 每 调用 次 relaxQ 方法 后 即 调用 findNegati- 3 Bol ph RO 
veCycle( 方法 。 顶点 ) ( 另 见 彩 揪 ) 
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inyEwDn. txt 
ee oe edgeTo[] distTo[] 
5->4 0.35 
4->7 0.37 
5->7 0.28 
7->5 0.28 
5->1 0.32 5 4->5 0.73 
0->4 0.38 
0->2 0.26 ， 2->7 0.60 
7->3 0.39 
1->3 0.29 edgeTo[] distTo[] 
2->7 0.34 
6->2 -1.20 了 1 5->1 1.05 
0 3 3 7->3 0.99 
6->0 -1.40 
6->4 -1.25 
edgeTo[] distTo[] 
3 
和 
6 
6 3->6 1.51 
edgeTo[] distTor] 
6 1 S21 1.05 
4 
不 再 有 效 
4 6->4 0.26 
5 4->5 -0.73 
edgeTo[] distTo[] 
1 S->1 1.05 
5 
5 4->5 0.61 
edgeTo[] distTor] 
5 5->1 0.93 
> 0->2 0.26 





VouawNpo 
vy 
o 
相 
bE 


图 4.4.24 Beliman-Ford 算法 的 轨迹 (图 中 含有 负 权重 边 ) ( 另 见 彩 插 ) 
这 种 方法 能 够 保证 构造 函数 中 的 循环 必然 会 终止 。 另外， 用例 可 以 调用 hasNegativeCycleC) 


来 判断 是 否 存在 从 起 点 可 达 的 负 权 重 环 (并 用 negativeCycle() 来 获取 这 个 环 ) 。 要 在 任意 有 向 
图 中 检测 负 权重 环 的 存在 只 需 稍 作 扩展 即 可 ( 请 见 练习 4.4.43 ) 。 
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图 44.25 是 Bellman-Ford 算 法 在 
一 幅 含有 负 权重 环 的 有 向 图 中 的 运行 轨 
迹 。 头 两 轮 放松 操作 与 处 理 tinyEWDn. 
bt 时 是 一 样 的 。 在 第 三 轮 中 ， 算 法 
在 放松 了 边 7 一 3 和 5 一 1 并 将 顶点 
3 和 1 加 入 队列 后 开始 放松 负 权 重 边 
5 一 4。 在 这 次 放松 操作 中 算法 发 现 了 
一 个 负 权 重 环 4 一 5 一 4。 它 将 5 一 4 
加 入 最 短路 径 树 中 并 在 edgeTo[] 中 将 
环 和 起 点 隔离 开 来 。 从 这 时 开始 ， 算 法 
沿 着 环 继续 运行 并 会 减少 到 达 所 遇 到 的 
所 有 顶点 的 距离 , 直至 检测 到 环 的 存在 ， 
此 时 队列 非 空 。 环 被 保存 在 edgeTo[] 
中 ,findNegativeCycle() 会 在 其 中 
找到 它 。 


tinyEWDnc. txt 队列 
4->5 0.35 1 
5->4 -0.66 2 
4->7 0.37 be 
5->7 0.28 7 
7->5 0.28 5 
5->1 0.32 

0->4 0.38 

“0->2 0.26 

7->3 0.39 3 
1->3 0.29 rs 
2->7 0.34 

6->2 0.40 

3->6 0.52 

6->0 0.58 

6->4 0.93 


vvasre 





Puwwwa 























private void findNegativeCycleO 
{ 
int V = edgeTo. length; 
EdgeweightedDigraph spt; 
spt = new EdgeWeightedDigraphCV); 
for (int v= 0; v < Vi v++) 
if (edgeTo[v] != nu11) 
spt.addEdge(edgeTo[v]); 
EdgeweightedCycleFinder cf; 
cf = new EdgeweightedCycleFinder(spt); 
cycle = cf.cycleO; 
} 
public boolean hasNegativeCycle() 
{ return cycle != null; } 


public Iterable<Edge> negativeCycle() 
{ return cycle; } 


Bellman-Ford 算 法 的 负 权重 环 检测 方法 


edgeTo[] distTor] 


5 4->5 0.73 
7 2->7 0.60 

edgeTo[] distToD 
1 5->1 1.05 


3 71-23. 0.99 
4 5-34 0.07 二 路径 0 一 4 一 5 一 4 
的 长 度 


edgeTo[] distTo[] 


5 4>5 0.42 
6 3->6 -151 
7 2->7 0.44 


edgeTo[] distTo[] 
1 5->1 0.74 
3 7->3 -0.83 


4 5-24 -0.59 一 路 径 0 一 4 一 5 一 
4 一 5 一 4 的 长 度 


678 图 4425 _Beliman-Ford 算法 的 轨迹 (含有 人 负 权 重 环 的 图 ， 另 见 彩 插 ) 
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4.4.6.9 套 汇 

假设 有 一 个 基于 商品 贸易 的 金融 交易 市 场 。 以 下 框 注 显示 的 是 示例 文件 rates txt 的 内 容 ， 你 可 
以 在 任意 货币 兑换 比例 的 表格 中 找到 类 似 的 内 容 。 文 件 的 第 一 行 是 货币 的 种 类 数 V， 接 下 来 的 每 一 
行 都 对 应 一 种 货币 ， 开 头 是 该 货币 的 名 称 ， 紧 接着 是 它 和 其 他 货币 兑换 的 汇率 。 简 单 起 见 ， 这 个 例 
子 中 只 包含 了 能 够 在 现代 市 场 中 进行 交易 的 数 百 种 货币 中 的 五 种 : 美元 (USD ) 、 欧 元 ( EUR ) 、 
英镑 (GBP ) 、 瑞 士 法 郎 (CHF ) 和 加 元 (CAD ) 。 第 s 行 的 第 t 个 数字 表示 一 个 汇率 ， 即 购买 一 
个 单位 的 第 s 行 的 货币 需要 多 少 个 单位 的 第 上行 的 货币 。 例 如 ， 这 张 表 告 诉 我 们 ，1000 美元 能 够 
购买 741 欧元 。 这 张 表 格 等 价 于 一 幅 完全 的 加 权 有 向 图 ， 顶 点 对 应 着 货币 ， 边 则 对 应 着 汇率 。 权 重 
为 x 的 边 s 一 t 表 示 从 货币 s 到 货币 t 的 汇率 为 x。 这 张 图 中 的 路 径 则 表示 多 次 兑换 。 例 如 ， 将 权 
重 为 y 的 边 + 一 u 和 刚才 的 边 结合 起 来 就 得 到 了 一 条 路 径 s 一 + 一 u， 即 一 个 单位 的 货币 s 可 以 部 
换 为 xy 个 单位 的 货币 u。 比 如 ， 欧 元 可 以 兑换 得 到 1012.206=741*1.366 加 元 。 注 意 ， 这 比 直接 用 
美元 兑换 的 汇率 更 高 。 你 可 能 会 以 为 xy 总 是 应 该 等 于 边 s~*u 的 权重 ， 但 这 张 表 格 所 表示 的 金融 
系统 非常 复杂 ， 并 不 总 是 能 够 保证 这 种 一 致 性 。 因 此 ， 找 到 所 有 从 s 到 u 的 路 径 中 所 有 边 的 权重 之 
积 最 大 者 就 是 我 们 最 感 兴趣 的 问题 。 一 种 更 有 趣 的 情况 是 ， 所 有 边 的 权重 之 积 小 于 从 终点 指向 起 点 
的 边 的 权重 。 在 这 个 示例 中 ， 假 设 边 u 一 s 的 权重 为 z 且 xyz>1。 那 么 环 s 一 t 一 u 一 s 就 能 够 用 
一 个 单位 的 货币 s 得 到 多 于 一 个 单位 (xyz) 的 货币 s。 换 句 话说 ， 将 货币 s 兑换 为 +、u 并 最 后 
再 兑换 为 s 就 可 以 得 到 100(xyz-1) 的 利润 。 例 如 ， 如 果 将 1012.206 加 元 重新 兑换 为 美元 ， 可 以 
得 到 1012.206*0.995=1007.14497 美元 ， 也 就 是 得 到 了 7.14497 美元 的 利润 。 这 看 起 来 似乎 不 多 ， 
但 一 个 外 汇 交 易 商 可 能 会 用 一 百 万 美元 并 在 每 分 钟 都 进行 一 遍 这 样 的 交易 ， 也 就 是 说 他 每 分 钟 的 
利润 将 超过 7000 美元 ， 或 者 说 每 小 时 的 利润 超过 420 000 美元 ! 这 就 是 套 汇 交易 的 一 个 例子 ， 请 
见 图 4.4.26。 如 果 没 有 外 力 的 限制 ， 
比如 手续 费 或 是 交易 金额 上 限 ， 交 易 % more rates.txt 
商 可 以 从 其 中 获取 无 限 的 利润 。 即 使 起 
是 在 现实 世界 中 的 这 些 限制 下 ， 套 汇 EUR 1.349 
的 利润 仍然 是 非常 高 的 。 这 个 问题 和 Pe 
最 短路 径 问 题 有 什么 关系 呢 ? 要 回答 CAD 0.995 
这 个 问题 非常 简单 。 


0.741 
1 

1.126 
0.698 
0.732 


命题 Z。 套 汇 问题 等 价 于 加 权 有 向 图 中 的 负 权 重 环 的 检测 问题 。 


证 阴 。 取 每 条 边 权 重 的 自然 对 数 并 取 反 ,这样 在 原始 问题 中 所 有 : 
了 新 图 中 所 有 边 的 权重 之 和 的 计算 。 任意 权重 之 积 wiwy--wi 即 对 应 
转换 后 边 的 权重 可 能 为 正 也 可 能 为 负 。 一 条 从 v 到 Ww 的 路径 表示 将 
意 负 权重 环 都 是 一 次 套 汇 的 好 机 会 (请 见 图 4.4.27 ) 。 









在 这 个 示例 中 ,货币 可 以 任意 兑换 ,因此 有 向 图 是 完全 的 ,任意 负 权 重 环 都 是 从 任意 顶点 可 达 的 。 
在 一 般 的 商品 交易 中 ， 有些 边 可 能 并 不 存在 ， 因 此 需要 练习 4.4.43 所 述 的 只 有 一 个 参数 的 构造 函数 。 
目前 没有 已 知 的 寻找 最 佳 套 汇 机 会 ( 图 中 负 权 重 最 小 的 环 ) 的 高 效 算法 ( 图 的 规模 不 需要 很 大 就 能 
使 所 需 的 计算 量 超过 计算 机 的 承受 能 力 ) ,但 找 出 任意 套 汇 机 会 的 最 快 算法 仍然 是 很 重要 的 一 在 
第 三 快 的 算法 找到 任何 套 汇 机 会 之 前 ， 使 用 这 种 算法 的 商人 很 可 能 已 经 可 以 系统 地 排除 许多 不 佳 的 
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套 汇 机 会 了 。 
-ieC7eD -InGLa69 -1nC.995) 


0.741 * 1.366 * .995 = 1.00714497 


.2998 - .3119 + .0050 = -.0071 





图 4.4.26 一 次 套 汇 机 会 图 4.4.27 一 个 负 权重 环 就 表示 了 一 次 套 汇 的 机 会 


货币 兑换 中 的 套 汇 





public class Arbitrage 


public static void main(String[] args) 


int V = StdIn.readIntO; 
String[] name = new String[V]; 
EdgeweightedDigraph G = new EdgeWeightedDigraph(V); 
for Cint v= 0; Vv <V; v++) 
name[v] = StdIn.readStringO; 
for Cint w= 0; w < V; w++) 
double rate = StdIn.readDoubleO; 
DirectedEdge e = new DirectedEdge(v, w, -Math.1og(rate)); 
G.addEdge(e); 
} 
} 
BellmanFordSP spt = new BellmanFordSP(G, 0); 
if (spt.hasNegativeCycle()) 
{ 
double stake = 1000.0; 
for (DirectedEdge e : spt.negativeCycle()) 
StdOut.printf("%10.5f %s", stake, name[e.from()]); 
Stake *= Math.exp(-e.weight()); 
StdOut .printf("= %10.5f %s\n", stake, name[e.to()]); 
站 
else StdOut.printlnC"No arbitrage opportunity"); 
} 
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这 段 代 码 调用 了 BellmanFordsp 类 来 寻 i i 
找 汇率 表 中 的 套 汇 机 会 。 它 首先 使 用 完全 有 向 。 。 “0299oAnb tage < te Et 


图 表示 汇率 表 ， 然 后 用 Bellman-Ford 算法 来 寻 741.00000 EUR = 1012.20600 CAD 
找 图 中 的 负 权重 环 。 1012.20600 CAD = 1007.14497 USD 





命题 工 的 证 明 即 使 在 没有 套 汇 机 会 的 情况 下 仍然 有 用 ， 因 为 它 将 货币 兑换 问题 转化 为 了 一 个 
最 短路 径 问题 。 因 为 对 数 函 数 是 单调 的 〔 且 会 对 计算 的 结果 取 反 ) ， 当 边 的 权重 之 和 最 小 时 汇率 二 
之 积 正好 最 大 。 尽 管 边 的 权重 可 正 可 负 ， 从 v 到 w 的 最 短路 径 仍然 是 将 货币 v 兑换 为 货币 w 的 最 [679 
好 方法 。 681 


4.4.7 展望 

表 4.4.9 总 结 了 本 节 中 我 们 所 学 习 到 的 各 种 最 短路 径 算法 的 重要 性 质 。 在 这 些 算法 中 进行 选择 
的 第 一 个 条 件 是 问题 所 涉及 的 有 向 图 的 基本 性 质 。 它 含有 负 权重 的 边 吗 ? 它 含 有 环 吗 ? 它 含 有 负 权 
重 的 环 吗 ? 除了 这 些 基本 性 质 之 外 ， 加 权 有 向 图 的 特性 多 种 多 样 ， 因 此 在 有 多 个 合适 的 选择 时 就 需 
要 通过 实验 找 出 最 佳 的 算法 。 





表 4.4.9 最 短路 径 算法 的 性 能 特点 


路 径 长 度 的 比较 次 数 
《增长 的 数量 级 ) 








最 二 情况 下 仍 有 较 好 的 
性能 






Dijkstra 算法 ( 即时 版 本 ) 边 的 权重 必须 为 正 





是 无 环 图 中 的 最 优 算法 


只 适用 于 无 环 加 权 有 
拓扑 排序 二 








Bellman-Ford 算 法 ( 基于 队列 ) | 不 能 存在 负 权重 环 适用 领域 广泛 





历史 资料 
自 20 世纪 50 年 代 以 来 ， 最 短路 径 算法 就 已 经 被 深入 地 研究 并 被 广泛 应 用 了 。 计 算 最 短路 径 的 
Dijkstra 算法 的 历史 和 计算 最 小 生成 树 的 Prim 算法 的 历史 背景 相似 ( 并 且 也 相关 ) 。Dijkstra 算法 
既 指 的 是 按照 顶点 距离 起 点 的 远近 顺序 构造 最 短路 径 树 的 算法 ， 也 指 的 是 该 算法 的 实现 ，( 它 也 是 
最 适合 用 临 接 和 矩阵 表示 的 算法 。 ) ， 因 为 Dijkstra 在 1959 年 的 一 篇 论文 中 发 表 了 上 述 观点 ( 并 且 证 
明了 这 种 方法 同样 也 可 以 用 来 计算 最 小 生成 树 ) 。 稀 疏 图 算法 的 性 能 改进 来 自 于 之 后 对 优先 队列 实 
现 的 改进 ， 不 仅仅 针对 最 短路 径 问 题 。 这 其 中 最 重要 的 是 Dijkstra 算法 性 能 的 改进 。 ( 例如 ， 使 用 
交 波 那 自 堆 后 最 坏 情况 下 的 复杂 度 可 以 提高 到 E+ mogF) 。 实 践 证 明 Bellman-Ford 算法 十 分 有 效 并 
且 应 用 领域 广泛 ,特别 是 处 理 一 般 性 的 加 权 有 向 图 。 由 于 Bellman-Ford 算法 计算 普通 应 用 的 运行 时 
间 常 常 是 线性 的 ， 因 此 在 最 坏 情况 下 它 的 运行 时 间 是 VE。 最 坏 情 况 下 的 运行 时 间 为 线性 级 别 的 稀 
朴 图 的 最 短路 径 算法 是 一 个 仍 在 研究 之 中 的 问题 。Bellman-Ford 算法 最 早 由 L.Ford 和 R.Bellman 发 
表 于 20 世纪 50 年 代 。 尽 管 我 们 已 经 看 到 许多 其 他 的 图 算法 性 能 得 到 了 大 幅 改进 ， 但 是 处 理 含有 负 ”|[682 
权重 边 〈 但 不 含 负 权重 环 ) 的 且 在 最 坏 情况 下 性 能 更 好 的 有 向 图 算法 还 没有 出 现 。 683 
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围 答 经 


问 ”为 什么 要 分 别 为 无 向 图 、 有 向 图 、 加 权 无 向 图 、 加 权 有 向 图 定义 不 同 的 数据 类 型 ? 

答 这 么 做 是 为 了 使 用 例 代码 更 清晰 ， 同 时 也 是 为 了 更 加 简洁 和 高 效 地 实现 没有 权重 的 图 。 在 需 
要 处 理 各 种 图 的 应 用 或 系统 中 ， 软 件 工程 中 的 标准 做 法 就 是 先 定义 一 种 抽象 数据 结构 并 根据 
它 衍生 出 其 他 抽象 数据 结构 ， 也 就 是 4.1 节 中 学 习 的 无 向 图 Graph，4.2 节 中 学 习 的 有 向 图 
Digraph，4.3 节 中 学 习 的 加 权 无 向 图 EdgeweightedGraph， 或 是 在 本 节 中 学 习 的 加 权 有 向 图 
EdgeweightedDigraph。 

间 ”如 何在 (加权 ) 无 向 图 中 找到 最 短路 径 ? 

答 ”对 于 边 的 权重 均 为 正 的 图 ，Dijkstra 算法 可 以 解决 这 个 问题 。 只 需 根据 给 定 的 Edgewe-ightedGraph 
构造 一 幅 EdgeweightedDigraph ( 无 向 图 中 的 每 条 边 都 对 应 着 有 向 图 中 的 两 条 方向 不 同 的 边 ) 并 执 
行 Dijkstra 算法 即 可 。 如 果 边 的 权重 可 能 为 负 ， 高 效 的 算法 也 是 存在 的 ， 但 它们 比 Bellman-Ford 算 
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法 更 复杂 。 





围 练 人 


4.4.1 真 假 判断 : 将 每 条 边 的 权重 都 加 上 一 个 常数 不 会 改变 单 点 最 短路 径 问题 的 答案 。 
4.4.2 为 EdgeweightedDigraph 类 实现 toString() 方法 。 
4.4.3 为 稠密 图 实现 一 种 使 用 邻接 矩阵 表示 法 ( 用 二 维 数组 保存 边 的 权重 ， 请 参考 练习 4.3.9 ) 的 
EdgeweightedDigraph 类 。 忽 略 平行 边 。 
4.4.4 从 tinyEWD.tt 中 (请 见 图 4.4.4 ) 删 去 顶点 7 并 给 出 加 权 有 向 图 中 以 顶点 0 为 起 点 的 最 短路 径 树 ， 
使 用 父 链接 数组 表示 这 棵 树 。 将 图 中 所 有 边 的 方向 反 转 并 回答 相同 的 问题 。 
4.4.5 在 tinyEWD.txt 中 (请 见 图 4.4.4) 改变 边 0 一 2 的 方向 。 画 出 该 加 权 有 向 图 中 以 顶点 2 为 起 点 的 
两 棵 不 同 的 最 短路 径 树 。 
4.4.6 给 出 用 即时 版 本 的 Dijkstra 算法 计算 练习 4.4.5 所 定义 的 图 的 最 短路 径 树 的 轨迹 。 
4.4.7 实现 Dijkstrasp 的 另 一 个 版 本 ， 支 持 一 个 方法 来 返回 一 幅 加 权 有 向 图 中 从 s 到 t+ 的 另 一 条 最 短 
路 径 。 ( 如果 从 s 到 t 的 最 短路 径 只 有 一 条 则 返回 nu11。 ) 
4.4.8 一 幅 有 向 图 的 直径 指 的 是 连接 任意 两 个 项 点 的 所 有 最 短路 径 中 的 最 大 长 度 。 编 写 一 个 DijkstraSP 
的 用 例 ， 找 出 边 的 权重 非 负 的 给 定 EdgeweightedDigraph 图 的 直径 。 
4.4.9 表 4.4.10 来 自 于 一 张 很 早 以 前 出 版 的 公路 地 图 ， 它 显示 的 是 城市 之 间 的 最 短路 径 的 长 度 。 这 张 表 
中 有 一 个 错误 。 改 正 这 个 错误 并 新 建 一 张 表 来 说 明 最 短路 径 是 哪 条 。 
4.4.10 将 练习 4.4.4 中 定义 的 有 向 图 看 作 无 向 图 ， 该 无 向 图 中 的 每 条 边 对 应 有 向 图 中 的 两 条 方向 不 同 但 
权重 相同 的 边 。 为 对 应 的 有 向 图 回答 练习 4.4.6 中 的 问题 。 
4.4.11 使 用 1.4 节 中 的 内 存 使 用 模型 评估 用 EdgeweightedDigraph 表示 一 幅 含 有 个 顶点 和 条 边 的 
图 所 需 的 内 存 。 
4.4.12 修改 42 节 中 的 DirectedCycle 类 和 Topological 类 ， 使 之 使 用 本 节 中 的 EdgeweightedDigraph 
类 和 DirectedEdge 类 的 API 并 实现 EdgeweightedCycleFinder 类 和 EdgeweightedTopological 类 。 
4.4.13 ”从 tinyEWD.txt 中 (请 见 图 4.4.4) 删 去 边 5 一 7， 用 Dijkstra 算法 计算 所 得 的 有 向 图 的 最 短路 径 
树 并 按照 正文 中 的 样式 给 出 算法 的 轨迹 。 


4.4.14 
4.4.15 


4.4.16 


4.4.17 


4.4.18 
4.4.19 
4.4.20 


4.4.21 


4.4 最 短路 径 二 447 


表 4.4.10 
普罗 维 登 斯 威 斯 特 里 新 伦敦 




















给 出 使 用 4.4.6.1 节 和 4.4.62 节 的 两 种 尝试 处 理 图 4.4.19 的 tinyEWDn.txt 所 得 到 的 路 径 。 
如 果 从 顶点 s 到 v 的 路 径 上 存在 一 个 负 权重 环 ， 调 用 Bellman-Ford 算法 的 pathTo(v) 方法 会 发 
生 什么 ? 

假设 用 EdgeweightedGraph 中 的 每 条 边 Edge 都 蔡 换 为 两 条 ( 两 个 方向 各 一 条 ) Directed- 
Edge 的 方式 将 EdgeweightedGraph 类 转化 为 EdgeweightedDigraph 类 ( 如 答疑 中 关于 
Dijkstra 算 法 的 部 分 所 述 ) 然 后 再 使 用 Bellman-Ford 算 法 处 理 它 。 说 明 为 什么 这 种 方法 大 错 特 错 。 
在 Beliman-Ford 算法 中 如 果 一 个 顶点 在 同一 轮 中 被 两 次 加 入 队列 会 发 生 什么 ? 

解答 : 算法 所 需 的 运行 时 间 将 会 达到 指数 级 。 例 如 ， 描 述 一 幅 边 的 权重 全 部 为 -1 的 加 权 
有 向 完全 图 中 Bellman-Ford 算法 的 执行 情况 。 

编写 一 个 CPM 的 用 例 来 打印 出 所 有 的 关键 路 径 。 

找 出 正文 中 的 例子 里 权重 最 低 的 环 ( 即 最 佳 套 汇 机 会 ) 。 

从 网 上 或 者 报纸 上 找到 一 张 汇率 表 并 用 它 构造 一 张 套 汇 表 。 注 意 : 不 要 使 用 根据 若干 数据 计算 
得 出 的 汇率 表 ， 它 们 的 精度 有 限 。 附 加 题 : 从 汇率 市 场 上 赚 点 外 快 ! 

用 Beliman-Ford 算法 计算 练习 4.4.5 中 的 加 权 有 向 图 的 最 短路 径 树 并 按照 正文 中 的 样式 给 出 算法 
的 轨迹 。 


国 提高 是 


4.4.22 


4.4.23 


4.4.24 


4.4.25 


顶点 的 权重 。 证 明 ， 要 得 到 顶点 也 有 非 负 权重 的 加 权 有 向 图 中 的 最 短路 径 ( 路径 的 权重 为 路 径 
上 的 顶点 权重 之 和 ) ， 可 以 通过 构造 一 幅 只 有 边 含有 权重 的 加 权 有 向 图 解决 。 

给 定 两 点 的 最 短路 径 。 设 计 并 实现 一 份 API， 使 用 Dijkstra 算法 的 改进 版 本 解决 加 权 有 向 图 中 给 
定 两 点 的 最 短路 径 问题 。 

多 起 点 最 短路 径 。 设 计 并 实现 一 份 API， 使 用 Dijkstra 算法 解决 加 权 有 向 图 中 的 多 起 点 最 短路 径 
问题 ， 其 中 边 的 权重 均 为 正 : 给 定 一 组 起 点 ， 找 到 相应 的 最 短路 径 森 林 并 实现 一 个 方法 为 用 例 
返回 从 任意 起 点 到 达 每 个 顶点 的 最 短路 径 。 提 示 : 添加 一 个 伪 项 点 和 从 该 顶点 指向 每 个 起 点 的 
一 条 权重 为 零 的 边 ， 或 者 在 初始 化 时 将 所 有 起 点 加 入 优先 队列 并 将 它们 在 distTo[] 中 对 应 的 值 
均 设 为 0。 

两 个 顶点 集合 之 间 的 最 短路 径 。 给 定 一 幅 边 的 权重 均 为 正 的 有 向 图 和 两 个 没有 交集 的 顶点 集 8 
和 7， 找 到 从 5 中 的 任意 顶点 到 达 了 中 的 任意 顶点 的 最 短路 径 。 你 的 算法 在 最 坏 情况 下 所 需 的 时 
间 应 该 与 Blogy 成 正比 。 
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4.4.26 


4.4.27 


4.4.28 


4.4.29 


4.4.30 


4.4.31 


4.4.32 


4.4.33 


~ 44.34 


244.38 





9 


稠密 图 中 的 单 点 最 短路 径 :实现 另 一 个 版 本 的 Dijkstra 算法 ， 使 之 能 够 在 与 大成 正比 的 时 间 内 
在 一 幅 稠密 的 加 权 有 向 图 中 计算 出 给 定 顶 点 的 最 短路 径 树 。 请 使 用 邻接 矩阵 法 表示 稠密 图 (请 
参考 练习 44.3 和 练习 43.29) 。 ， 

欧 拉 图 中 的 最 短路 径 。. 已 知 图 中 的 顶点 均 在 平面 上 ， 修 改 API 以 提高 Dijkstra 算法 的 性 能 。 

有 向 无 环 图 中 的 最 长 路 径 。 重 新 实现 Acyc1icLP 类 ， 根 据 命题 解决 加 权 有 向 无 环 图 中 的 最 长 
路 径 问 题 。 

一 肯 最 优 性 。 完 成 命题 W 的 证 明 ， 说 明 如 果 存在 从 s 到 v 的 有 向 路 径 且 从 s 到 v 的 任意 路径 上 
的 所 有 顶点 都 不 在 任意 负 权 重 环 上 , 那么 必然 存在 一 条 从 s 到 v 的 最 短路 径 ( 提示 : 参考 命题 P)。 
含有 负 权 重 环 的 图 中 的 任意 顶点 对 之 间 的 最 短路 径 。 参考 4.4.4.3 节 框 注 “ 任 意 顶点 对 之 间 的 
最 短路 径 ” 所 实现 的 不 含 负 权 重 环 的 图 中 任意 顶点 对 之 间 的 最 短路 径 问 是 并 设计 一 份 API。 使 
用 Bellman-Ford 算法 的 一 个 变种 来 确定 权重 数组 pi[] ， 使 得 对 于 任意 边 v 一 w， 边 的 权重 加 上 
Pi[vJ 和 厅 [w] 之 差 的 和 非 负 。 然 后 更 新 所 有 边 的 权重 ， 使 得 Dijkstra 算法 可 以 在 新 图 中 找 出 所 
有 的 最 短路 径 。 

线 轩 中 任意 顶点 对 之 间 的 最 短路 径 。 给 定 一 帐 加 权 线 图 ( 无 向 连通 图 ， 除 了 两 个 端点 度数 为 1 
之 外 所 有 顶点 的 度数 为 2 ) ， 给 出 一 个 算法 在 线性 时 间 内 对 图 进行 预 处 理 并 在 常数 时 间 内 返回 任 
意 两 个 项 点 之 间 的 最 短路 径 。 y 

启发 式 的 父 结 点 检查 。 修 改 Bellman-Ford 算 法 ， 仅 当 顶 点 v 在 最 短路 径 树 中 的 父 结 点 
edgeTo[v] 目前 不 在 队列 中 时 才 访问 v。Cherkassky 、Goldberg 和 Radzik 在 实践 中 发 现 这 种 启发 
式 的 做 法 十 分 有 帮助 。 证 明 这 种 方法 能 够 正确 的 计算 出 最 短路 径 且 在 最 坏 情况 下 的 运行 时 间 和 “ 
EV 成 正比 s 

网 格 图 中 的 最 短路 径 。 给 定 一 个 Nx N 的 正 整数 矩阵 ， 找到 从 C0,0) 到 (N-1, N_D) 的 最 短路 径 ， 


_ 路 径 的 长 度 即 为 路 径 中 所 有 正 整 数 之 和 。 在 只 能 向 右 和 向 下 移动 的 限制 下 重新 解答 这 个 问题 。 


单调 最 短路 径 。 给 定 一 幅 加 权 有 向 图 ， 找 出 从 s 到 其 他 每 个 顶点 的 单调 最 短路 径 。 如 果 一 条 路 
径 上 的 所 有 边 的 权重 是 严格 单调 递增 或 递减 的 ， 那 么 这 条 路 径 就 是 单调 的 。 这 样 的 路 径 应 该 是 
简单 的 ( 不 包含 重复 顶点 ) 。 提示: 按照 权重 的 升序 放松 所 有 边 并 找到 一 条 最 佳 路 径 ; 然后 按 
照 权重 的 降序 放松 所 有 边 再 找到 另 一 条 最 佳 路 径 。 

双 调 最 短路 径 。: 给 定 一 幅 有 向 图 ， 找 到 从 's 到 其 他 每 个 顶点 的 双 调 最 短路 径 (如 果 存在 大 。 如 
果 从 s 到 t 的 路 径 上 存在 一 个 中 间 顶 点 v 使 得 从 s 到 v 中 的 所 有 边 的 权重 均 严格 单调 递增 且 从 


”:v 到 写 中 的 所 有 边 的 权重 均 严格 单调 递减 ， 那 么 这 就 是 -- 条 双 调 路 径 。 这 样 的 路 径 应 该 是 简单 的 “ 


4.4.36 


4.4.37 


4.4.38 


(不 包含 重复 顶点 ) 。 
邻居 顶点 。 编 写 -- 个 SP 的 用 例 ， 找 出 一 幅 给 定 加 权 有 向 图 中 和 一 个 给 定 顶 点 的 距离 在 d 之 内 的 
所 有 顶点 。 你 的 算法 所 需 的 运行 时 间 应 该 与 由 这 些 顶 点 和 依附 于 它们 的 边 组 成 的 子 图 的 大 小 以 
及 (用 于 初始 化 数据 结构 ) 中 的 较 大 者 成 正比 。 

关键 边 。 给 出 一 个 算法 来 找到 给 定 的 加 权 有 向 图 中 的 一 条 边 ， 删 去 这 条 边 使 得 给 定 的 两 个 顶点 
之 间 的 最 短 距离 的 增加 值 最 大 。 
教 感度 。 给 定 一 幅 加 权 有 向 图 和 一 对 顶点 s 和 +， 编写 一 个 SP 的 用 例 对 该 图 中 的 所 有 边 进行 敏 
感度 分 析 : 计算 一 个 Vx 六 的 布尔 矩阵， 对 于 任意 的 v 和 w， 当 v 一 w 为 加 权 有 向 图 中 的 一 条 
边 且 增加 v 一 w 的 权重 不 会 增加 从 s 到 t 的 最 短路 径 的 权重 时 ，v 行 w 列 的 值 为 true， 否 则 为 
false。 


4.4.41 


4.4.42 


4.4.43 


4.4.44 
4.4.45 


4.4.46 


廷 时 Dijkstra 算法 的 实现 。 根 据 正文 实现 Dijkstra 算法 的 延 时 版 本 。 

浅 类 最 短路 径 树 。 请 证 明 一 幅 无 向 图 中 的 一 棵 最 小 生成 树 等 价 于 该 图 中 的 一 棵 痊 颈 最 短路 径 树 : 
对 于 任意 一 对 顶点 v 和 w， 该 树 都 含有 一 条 连接 它们 的 路 径 且 其 中 的 最 长 边 是 所 有 连接 两 点 的 路 
径 中 最 短 的 。 

双向 搜索 。 基 于 算法 4.9 的 代码 为 给 定 两 点 的 最 短路 径 问 题 实现 一 个 类 ， 但 在 初始 化 时 将 起 点 和 
终点 都 加 入 优先 队列 。 这 么 做 会 使 最 短路 径 树 从 两 个 顶点 同时 开始 生长 ， 你 的 主要 任务 是 决定 
两 棵 树 相遇 时 应 该 怎么 办 。 -一 

最 坏 情况 ( Dijkstra 算法 ) 。 找 出 含有 yy 个 顶点 和 5 条 的 一 组 图 ,使 得 Dijkstra 算法 处 理 它们 
所 需 的 运行 时 间 为 最 坏 情况 。 

负 权 重 环 的 检测 。 假 设 为 算法 4.11 加 大 了 一 个 构造 函数 ， 它 和 已 有 的 构造 函数 的 区 别 仅 在 于 


不 需要 第 二 个 参数 并 将 distTo[] 中 的 所 有 元 素 初 始 化 为 0。 证 明 ， 如 果 用 例 调用 的 是 这 个 


构造 函数 ， 那 么 当 且 仅 当 图 中 含有 一 个 负 权 重 环 时 ， hasNegativecycleQ 才 会 返回 true。 
(negativeCycle() 会 返回 那个 负 权 重 环 。) 

解答 : 向 原 图 添加 一 个 新 的 起 点 以 及 从 该 起 点 指向 所 有 其 他 顶点 的 权重 为 0 的 边 。 在 一 轮 放松 
之 后 ,distTo[] 中 的 所 有 元 素 的 值 均 会 变 为 0， 从 新 起 点 开始 寻找 - 和 
找 负 权重 环 是 等 价 的 。 

最 坏 情况 ( Bellman-Ford 算法 ) 。 找 出 一 组 图 ， 使 得 算法 4.11 的 运行 时 间 与 VE 成 正比 


快速 Bellman-Ford 算法 。 对 于 边 的 权重 为 整数 且 绝 对 值 不 大 于 某 个 常数 的 特殊 情况 ， 给 出 ye 
一 个 解决 一 般 的 加 权 有 向 图 中 的 单 点 最 短路 径 问题 的 算法 ， 人 


级 别 。 
动画 。 编 写 一 段 程序 将 Dijkstra 算法 用 动画 表现 出 来 。 


图 实验 a 


4.4.47 
4.4.48 
4.4.49 
4.4.50 


4.4.51 


4.4.52 


随机 加 权 有 向 释 疏 围 。 修 改 你 为 练习 4334 给 出 的 解答 ， 随 机 指定 每 条 边 的 方向 。 

随机 加 权 有 向 欧 拉 图 。 修 改 你 为 练习 43.35 给 出 的 解答 ， 随 机 指定 每 条 边 的 方向 。 

随机 加 权 有 向 网 格 图 > 修改 你 为 练习 43.36 给 出 的 解答 ， 随 机 指定 每 条 边 的 方向 。 

负 权重 这 I。 修 改 你 的 随机 加 权 有 向 图 生成 器 ， et (x 
和 y 都 在 -1 和 1 之 间 ) 

负 权重 边 1。 修改 你 的 随机 加 权 有 向 图 生 这 器， 将 固定 比例 (此 值 由 用 例 指定 ) 的 边 的 权重 取 反 
来 生成 负 权 重 的 边 。 

负 权 重 边 TI。 编写 一 段 程序 ,调用 你 的 加 权 有 向 图 生成 器 ， 尽 可 能 为 大 范围 的 六 和 巨 值 生成 多 
幅 加 权 有 向 图 ， 保 证 图 中 大 部 分 边 的 权重 为 负 且 只 有 若干 个 负 权 重 环 。 

测试 所 有 的 算法 并 研究 所 有 图 的 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 段 


… 程序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模型 进行 


4.4.53- 


实验 。 类 天 由 的 地 亲自 忆 作 出 基 断 米 池 关 不 用 闫 娄 。 陈述 结果 以 及 由 此 得 出 的 任 
何 结论 。 各 

预测 。 请 估计 你 的 计算 机 和 程序 系统 使 用 Dstt 关 上 在 10 秒 名 之 内 能 够 计算 出 图 中 所 有 的 最 
短路 径 的 图 的 最 大 规模 ， 其 中 E=10VY， 误 差 在 10 售 以内 。 。- 


4.4 最 短路 径 本 449” 
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4.4.54 


4.4.55 
4.4.56 
4.4.57 


延 时 的 代价 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 比较 Dijkstra 算法 的 延 时 版 本 和 即时 版 本 
的 性 能 差异 。 

Johnson 算法 。 使 用 一 个 d 向 堆 实现 优先 队列 。 对 于 各 种 加 权 有 向 图 的 模型 ， 找 到 d 的 最 优 值 。 
套 汇 模型 。 实 现 一 个 模型 来 生成 随机 的 套 汇 问题 。 目 标 是 尽量 生成 与 练习 4.4.20 中 相似 表格 。 
最 后 期 限 限制 下 的 并 行 任务 调度 模型 。 实 现 一 个 模型 来 生成 随机 的 最 后 期 限 限制 下 的 并 行 任务 
调度 问题 。 目 标 是 尽量 生成 复杂 但 可 以 解决 的 问题 。 





我 们 通过 交流 成 串 的 字符 进行 沟通 ,所 以 无 数 的 重要 而 熟悉 的 应 用 软件 都 是 基于 字符 趾 处 理 的 。 


本 章 中， 我 们 会 考察 一 些 经 典 算法 ， 解 决 以 下 应 用 领域 背后 的 计算 问题 。 

信息 处 理 。 当 你 根据 一 个 给 定 的 关键 字 搜索 网 页 时 ， 就 是 在 使 用 一 个 字符 串 处 理应 用 程序 。 在 
现代 世界 中 ， 可 以 说 所 有 的 信息 都 是 用 系列 字符 申 表示 的 ， 而 对 它们 进行 处 理 的 都 是 非常 重要 的 
字符 串 处 理应 用 程序 。 

基因 组 学 。 计 算 生物 学 家 的 一 项 工作 就 是 根据 密码 子 将 DNA 转换 为 由 4 个 碱 基 (A、C、T 和 G) 
组 成 的 ( 非常 长 的 ) 字 符 串 。 近 些 年 来 人 类 构建 起 来 的 庞大 的 基因 数据 库 已 经 能 够 描述 各 种 活体 器 官 ， 
因此 字符 串 处 理 已 经 成 为 了 现在 计算 生物 学 研究 的 基石 。 

通信 系统 。 无 论 你 是 在 发 送 短信 、 电 子 上 邮件 或 是 下 载 电子 书 ， 都 是 在 将 字符 申 从 一 个 地 方 传送 到 
另 一 个 地 方 。 以 此 为 目标 的 字符 串 处 理应 用 程序 是 字符 串 处 理 算法 开发 的 源 动 力 。 

编程 系统 。 程 序 是 由 字符 趾 组 成 的 。 编 译 器 、 解 释 器 等 其 他 能 够 将 程序 转换 为 机 器 指令 的 软件 
都 是 使 用 复杂 的 字符 串 处 理 技术 的 重要 应 用 软件 。 事 实 上 ， 所 有 的 书面 语言 都 是 由 字符 品 表 达 的 。 
另外 ， 开 发 字符 申 处 理 算法 的 另 一 一 个 动力 来 源 在 于 形式 语言 理论 ， 它 研究 的 是 对 不 同类 型 的 字符 串 
集合 的 描述 。 

这 儿 个 非常 有 意义 的 示例 说 明了 字符 串 处 理 算法 的 重要 性 和 应 用 领域 的 多 样 性 。 

本 章 的 结构 如 下 : 在 介绍 了 字符 串 的 基本 性 质 以 后 ， 我 们 会 在 5.1 节 和 5.2 节 中 再 次 遇 到 第 2 
章 和 第 3 章 学 过 的 排序 和 查找 API。 当 使 用 字符 申 作 为 键 时 ， 能 够 利用 键 的 特殊 性 质 的 算法 将 比 之 
前 学 习 过 的 算法 更 快 更 灵活 。 在 5.3 节 中 ， 我 们 会 学 习 子 字符 囊 查 找 算法 ， 包 括 由 Knuth、Morris 
和 Pratt 发 明 的 一 个 著名 的 算法 。 在 5.4 节 中 会 介绍 正则 表达 式 ， 它 是 模式 匹配 问题 的 基础 ， 是 一 个 
一 般 化 了 的 子 字符 串 查找 问题 , 也 是 搜索 工具 grep 的 核心 。 这 些 经 典 的 算法 的 基础 是 两 个 基本 概念 ， 
分 别 叫做 形式 语言 和 确定 有 限 状态 自动 机 。5.5 节 主要 介绍 了 一 一 个 重要 应 用 : 数据 压缩 ， 即 尝试 将 
一 个 字符 串 的 长 度 缩短 到 最 小 程度 。 


5.0.1 “游戏 规则 

为 了 简洁 高 效 ， 我 们 将 使 用 Java 的 String 类 来 表示 字符 串 ， 但 我 们 将 有 意识 地 尽量 少 使 用 该 
类 的 方法 以 使 算法 能 够 适用 于 其 他 字符 串 数 据 类 型 以 及 其 他 编程 语言 。 我 们 已 经 在 1.2 节 中 详细 介 
绍 过 各 种 字符 串 ， 这 里 简要 回顾 一 下 它们 最 主要 的 性 质 。 

字符 。String: 是 由 一 系列 字符 组 成 的 。 字 符 的 类 型 是 char， 可 能 有 2 个 值 。 数 十 年 以 来 ， 
程序 员 的 注意 力 都 局 限于 7 位 ASCI[ 码 (请 见 表 5.5.4 ) 或 是 8 位 扩展 ASCII 码 表示 的 字符 ， 但 许 
多 现代 的 应 用 程序 都 已 经 需要 使 用 16 位 Unicode 编码 了 。 

不 可 变性 。String 对 象 是 不 可 变 的 ， 因 此 可 以 将 它们 用 于 赋值 语句 、 作 为 函数 的 参数 或 是 返 
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回 值 ， 而 不 用 担心 它们 的 值 会 发 生变 化 。 
索引 。 我 们 最 常 完成 的 操作 就 是 从 某 个 字符 囊 中 提取 一 个 特定 的 字符 ， 即 Java 的 String 类 
的 charAt 0) 方法 。 我 们 希望 charAt0 方法 能 够 在 常数 时 间 内 完成 ， 就 好 像 字符 串 是 保存 在 一 个 
char[] 数组 中 一 样 。 根 据 第 1 章 中 的 讨论 ， 这 种 期 望 是 非常 合理 的 。 
长 度 。 在 Java 中 ，String 类 型 的 
1ength() 方法 实现 了 获取 字符 囊 的 长 
度 的 操作 。 同 样 ， 我 们 也 希望 lengt OF 
方法 能 够 在 常数 时 间 内 完成 , 这 也 是 合 。 s 一 A TTACKATDAWN 
情 合理 的 ， 尽 管 在 某 些 编程 环境 中 实现 


s.lengthO 





/ 
s.charAt(3) 


这 一 点 并 不 容易 。 s.substring(7, 11) 
子 字符 串 。Java 的 substringQ) 方 
法 实现 了 提取 特定 的 子 字符 囊 的 操作 。 图 5.0.1 String 类 型 的 基本 常数 时 间 操 作 


同样 ， 我 们 也 希望 这 个 方法 能 够 在 常数 
时 间 内 完成 ，Java 的 标准 实现 也 做 到 了 这 一 点 。 如 果 你 还 不 熟悉 substring() 方法 和 为 什么 它 只 
需要 常数 时 间 ， 请 务必 重新 闻 读 1.2 节 中 讨论 的 Java 字符 囊 的 标准 实现 ( 请 见 表 1.2.7 和 图 1.4.10 ) 。 

字符 串 的 连接 。 在 Java 中 通过 将 一 个 字符 事 追 加 到 另 一 个 字符 事 的 末尾 创建 一 个 新 字符 串 的 操 
作 是 一 个 内 置 的 操作 (使 用 “+” 运 算 符 ) ， 所 需 的 时 间 与 结果 字符 串 的 长 度 成 正比 。 例 如 ， 我 们 
会 避免 将 字符 一 个 一 个 地 追加 到 字符 串 中 , 因为 在 Java 里 这 个 过 程 所 需 的 时 间 将 会 是 平方 级 别 的 ( 为 
此 Java 提供 了 一 个 StringBuilder 类 ， 请 见 图 5.0.1 ) 。 

字符 数组 。Java 的 String 类 显然 并 不 是 一 个 原始 数据 类 型 。Java 的 标准 实现 提供 了 刚才 提 到 
的 几 个 操作 以 供 客户 端 程序 调用 。 但 与 之 相反 ， 我 们 将 要 学 习 的 许多 算法 都 能 够 处 理 字符 串 的 低级 
表示 ， 比 如 char 类 型 的 数组 ， 而 且 许 多 字符 串 的 用 例 程 序 也 更 愿意 使 用 这 种 表示 ， 因 为 它 消耗 的 
空间 更 小 ， 访 问 所 需 的 时 间 更 少 。 在 我 们 将 要 学 习 的 几 个 算法 中 ， 将 字符 串 从 一 种 表示 转换 成 男 一 
种 表示 的 代价 甚至 比 算法 的 运行 成 本 更 高 。 如 表 5.0.1 所 示 ， 处 理 这 两 种 表示 所 用 的 代码 的 差别 是 
很 小 的 ( substringQ 方法 比较 复杂 ， 此 处 省 略 ) ， 所 以 无 论 使 用 哪 种 表示 方式 都 不 会 影响 读者 对 
算法 的 理解 。 


表 5.0.1 在 Java 中 表示 字符 串 的 两 种 方法 





入 王浆 字符 数组 Java 字符 串 
声明 Char[] a String s 
根据 索引 访问 字符 a[i] s.charAt(i) 
获取 字符 串 长 度 a.length s.lengthO) 


表示 方法 转换 a=5. toCharArrayO); S=new String(a); 


理解 这 些 操作 的 运行 效率 是 理解 许多 字符 串 处 理 算法 效率 的 关键 部 分 。 并 不 是 所 有 编程 语 
言 实现 的 String 类 都 能 有 这 样 的 性 能 。 例 如 查找 子 字符 串 和 获取 字符 串 长 度 的 操作 在 C 语 
言 中 所 需 的 时 间 就 与 字符 串 中 的 字符 数量 成 正比 。 修 改 我 们 的 算法 并 使 之 适用 于 这 样 的 编程 语 
言 是 完全 可 以 的 (实现 一 个 类 似 Java 的 String 类 的 抽象 数据 类 型 ) ， 但 这 也 意味 着 不 同 的 挑 
战 和 机 遇 。 

在 正文 中 ,我 们 主要 会 使 用 String 数据 类 型 。 我 们 会 经 常 调用 通过 索引 访问 字符 串 中 的 字 
符 操作 和 获取 字符 串 长 度 的 操作 ， 有 时 会 使 用 提取 子 字符 串 或 是 连接 字符 串 的 操作 。 我 们 还 会 在 
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本 书 的 网 站 上 提供 相应 的 使 用 char 数组 的 代码 。 在 性 能 优先 的 应 用 场景 中 ， 用 例 在 这 两 种 表示 
方法 之 间 权衡 的 常常 是 访问 字符 的 成 本 ( 在 一 般 的 Java 实现 中 ，a[i] 很 可 能 比 s.charAt(i) 要 
快 很 多 ) 。 


5.0.2 字母 表 有 - 
一 些 应 用 程序 可 能 会 对 字符 趾 的 字母 表 作出 限制 。 在 这 些 应 用 中 ， 可 能 常常 会 需要 一 个 API 如 
表 5.0.2 所 示 的 Alphabet 类 。 
表 5.0.2 字母 表 的 API 


public class Alphabet 








AlphabetCString s) 根据 s 中 的 字符 创建 一 张 新 的 字母 表 
char toCharCint index) 获取 字母 表 中 索引 位 置 的 字符 
int toIndex(char c) 获取 c 的 索引 ,在 0 到 R-1 之 间 
boolean contains(char c) < 在 字母 表 之 中 吗 
int RO = 基数 字母 表 中 的 字符 数量 ) 
int 19RO 表示 一 个 索引 所 需 的 位 数 
int[] toIndicesCSstring s) 将 5 转换 为 R 进 制 的 整数 
String toChars(int[] indices) 将 R 进 制 的 整数 转换 为 基于 该 字母 表 的 字符 串 


这 份 API 定义 了 一 个 构造 函数 ， 它 用 一 个 含有 R 个 字符 的 字符 串 参 数 指定 了 字母 表 。API 定 
义 了 toChar() 方法 和 toIndex() 方法 来 在 字符 和 0 到 R-1 之 间 的 整 型 值 进行 转换 ( 常数 时 间 ) 。 
它 还 包含 了 contains() 方法 来 检查 给 定 的 字符 是 否 存在 于 字母 表 中 。 方 法 RC) 和 19RC) 用 来 获 
取 字 母 表 中 的 字符 数 以 及 表示 它们 所 需 的 位 数 。toIndices() 方法 和 tochars() 方法 能 够 将 由 
字母 表 中 的 字符 组 成 的 字符 串 与 int 数组 相互 转换 。 方 便 起 见 ， 下 面 的 表格 显示 了 各 种 内 置 的 字 
母 表 ， 你 可 以 通过 类 似 Alphabet .UNICODE 的 方式 来 访问 它们 。A1phabet 的 实现 很 简单 ， 我 们 
将 它 留 作 练 习 ( 请 见 5.1.12 ) 。 我 们 会 在 表 5.0.3 后 面 的 框 注 “A1phabet 类 的 典型 用 例 ” 来 展示 
一 个 它 的 用 例 。 


表 5.0.3 标准 字母 表 





名 称 RO 1gRO 字 符 集 
BINARY 2 1 "人 
DNA 4 2 ACTG 
OCTAL 8 3 01234567 
DECIMAL 10 4 0123456789 
HEXADECIMAL 16 4 0123456789ABCDEF 
PROTEIN 20 5 ACDEFGHIKLMNPQRSTVWY 
LOWERCASE 26 # abcdefghijklmnopqrstuvwxyz 
UPPPERCASE 26 » ABCDEFCHIJKLMNOPQRSTUVWXYZ 
BASE64 64 6 A 


ASCIT 128 7 ASCII 字符 集 
EXTENDED ASCI! 。 256 8 扩展 ASCI[ 字 符 集 
UNICODE16 65536 16 Unicode 字符 集 
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public class Count 
public static void mainCString[] args) 
{ 


Alphabet alpha = new Alphabet(args[0]); > 
int R = alpha.RO; 
int[] count = new int[R]; 


String s = StdIn.readA11O; 
int N = s.lengthO; 


for (int 1 = 0; 1 <N; i++) % more abra.txt 
if (alpha.contains(s.charAt(i))) ABRACADABRA! 
count[alpha. toIndexCs.charAt Ci))]++; 


% java Count ABCDR < abra. 
for (int c= 0; Cc < R; c++) txt 
StdOut. eine pe ep toChar(c) 
count[c]); 


Alphabet 类 的 典型 用 例 


字符 案 引 数组 。 我 们 使 用 Alphabet 类 的 一 个 最 重要 的 原因 是 字符 索引 的 数组 能 够 提高 算法 的 
效率 。 在 这 个 数组 中 ,用 字符 作为 索引 来 获取 与 之 相关 联 的 信息 。 如 果 要 使 用 Java 的 String 类 ， 
那 就 必须 使 用 一 个 大 小 为 65 536 的 数组 ; 有 了 Alphabet 类 ， 则 只 需要 使 用 一 个 字母 表 大 小 的 数组 
即 可 。 我 们 将 要 学 习 的 一 些 算法 能 够 产生 大 量 的 此 类 数组 。 在 这 种 情况 下 ， 大 小 为 655 36 的 数组 是 
不 可 接受 的 。 例 如 前 面 框 注 中 的 Count 类 ， 它 从 命令 行 接受 一 个 字符 串 并 在 标准 输出 上 打印 输入 的 
每 个 字符 串 的 出 现 频率 。 Count 中 用 来 保存 出 现 频率 的 count[] 数组 就 是 一 个 字符 索引 数组 的 示例 。 
你 可 能 会 认为 数组 的 计算 有 些 繁琐 ， 但 实际 上 它 是 5.1 节 介绍 的 一 系列 快速 排序 算法 的 基础 。 

数字 。 你 可 以 从 几 个 标准 的 Alphabet 类 的 示例 中 看 到 ， 我 们 经 常 要 处 理 字符 串 形式 的 数字 。 
toIndices() 方法 能 够 将 任意 基于 给 定 的 Alphabet 类 的 String 转换 为 一 个 R 进 制 的 数字 ， 用 一 
个 元 素 均 在 0 到 R-1 之 间 的 int[] 数组 表示 。 在 某 些 情况 下 ， 一 开始 就 进行 这 样 的 转换 可 以 使 代 
码 更 简洁 ， 因 为 任意 数字 都 能 作为 一 个 字符 串 索引 数组 中 的 索引 。 例 如 ， 如 果 我 们 已 知 输入 中 仅 含 
有 字母 表 中 的 字母 ， 那 就 可 以 将 Count 中 的 内 循环 替换 为 下 面 这 段 更 加 简洁 的 代码 : 


int[] a = alpha.toIndices(s); % more pi.txt 


for (int i = 0; i < N; i++) 3141592653 

count[a[i]]++; 5897932384 

其 中 ， 我 们 将 R 称 为 基数 ， 即 进 制 数 。 我 们 介绍 的 几 种 算 。 5264338327 
法 也 常常 被 称 为 “基数 ” 方法 ,因为 它们 一 次 只 处 理 一 位 数 。 。 .-。[m 的 100 000 全 ] 


尽管 使 用 A1phabet 这 样 的 数据 类 型 能 够 为 字符 串 处 % java Count 0123456789 < pi.txt 
理 算 法 带 来 许多 好 处 (特别 是 对 于 较 小 的 字母 表 ) ， 但 是 0 9999 


本 书 中 并 没有 实现 基于 通用 字母 表 A1phabet 类 得 到 的 字 。 2 9908 
符 串 类 型 ， 这 是 因为 : 3 
口 大 多 数 程序 使 用 的 都 是 String 类 型 ; 5 10026 

口 将 字符 申 转化 为 索引 或 是 由 索引 得 到 字符 申 常常 ?10023 

会 落 入 内 循环 中 ， 这 会 大 幅 降 低 实现 的 性 能 ; 8 9978 

口 这 会 使 代码 更 加 复杂 ， 也 更 加 难以 理解 。 人 


因此 我 们 仍然 会 使 用 String 类 ， 在 代码 中 使 用 常数 R = 256 并 在 分 析 中 将 R 作为 参数 。 在 适当 
的 时 候 我 们 会 讨论 通用 字母 表 的 性 能 。 本 书 的 网 站 提供 了 基于 Alphabet 类 的 各 种 算法 的 完整 实现 。 
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5.1 字符 串 排 序 


对 于 许多 排序 应 用 ， 决 定 顺序 的 键 都 是 字符 串 。 本 节 中 ， 我 们 将 会 考察 能 够 利用 字符 串 的 特殊 
性 质 将 字符 串 键 排序 的 方法 ， 它 们 将 比 第 2 章 学 过 的 通用 排序 方法 效率 更 高 。 

我 们 将 学 习 两 类 完全 不 同 的 字符 串 排 序 方法 。 它 们 都 是 为 程序 员 服务 了 几 十 年 的 强大 方法 。 

第 一 类 方法 会 从 右 到 左 检查 键 中 的 字符 。 这 种 方法 一 般 被 称 为 低位 优先 (LSD ) 的 字符 串 排序 。 
使 用 数字 ( digit ) 代替 字符 ( character ) 的 原因 要 追溯 到 相同 方法 在 各 种 数字 类 型 中 的 应 用 。 如 果 
将 一 个 字符 串 看 作 一 个 256 进 制 的 数字 ， 那 么 从 右 向 左 检查 字符 串 就 等 价 于 先 检查 数字 的 最 低位 。 
这 种 方法 最 适合 用 于 键 的 长 度 都 相同 的 字符 串 排序 应 用 。 

第 二 类 方法 会 从 左 到 右 检查 键 中 的 字符 ， 首 先 查 看 的 是 最 高 位 的 字符 。 这 些 方法 通常 称 为 高 位 
优先 (MSD ) 的 字符 串 排序 一 一 本 节 将 会 学 习 两 种 此 类 算法 。 高 位 优先 的 字符 串 排序 的 吸引 人 之 处 
在 于 ， 它 们 不 一 定 需要 检查 所 有 的 输入 就 能 够 完成 排序 。 高 位 优先 的 字符 串 排序 和 快速 排序 类 似 ， 
因为 它们 都 会 将 需要 排序 的 数组 切 分 为 独立 的 部 分 并 递归 地 用 相同 的 方法 处 理子 数组 来 完成 排序 。 
它们 的 区 别 之 处 在 于 高 位 优先 的 字符 串 排序 算法 在 切 分 时 仅 使 用 键 的 第 一 个 字符 ， 而 快速 排序 的 比 
较 则 会 涉及 键 的 全 部 。 要 学 习 的 第 一 种 方法 会 将 相同 字符 的 键 划 入 同一 个 切 分 ， 第 二 种 方法 则 总 会 
产生 三 个 切 分 ， 分 别 对 应 被 搜索 键 的 第 一 个 字符 小 于 、 等 于 或 大 于 切 分 键 的 第 一 个 字符 的 情况 。 

在 分 析 字 符 串 排序 算法 时 ， 字 母 表 的 大 小 是 一 个 重要 的 因素 。 尽 管 我 们 的 重点 是 基于 扩展 的 
ASCI 字符 集 的 字符 串 ( R=256 ) ， 但 也 会 分 析 来 自 较 小 字母 表 的 字符 串 〈 例如 基因 序列 ) 和 来 自 
较 大 字母 表 的 字符 串 ( 例如 含有 65 536 个 字符 的 Unicode 字母 表 , 它 是 自然 语言 编码 的 国际 标准 ) 。 


5.1.1 键 索引 计数 法 


作为 热身 ， 我 们 先 学 习 一 种 适用 于 小 整数 键 的 etre 
简单 排序 方法 。 这 种 叫做 键 索 引 计数 的 方法 本 身 就 Anderson 2 Harris 1 
很 实用 ， 同 时 也 是 本 节 中 将 要 学 习 的 两 三 种 字符 串 ed 
排序 算法 的 基础 。 Garcia 4 Anderson 2 
老师 在 统计 学 生 的 分 数 时 可 能 会 过 到 以 下 数 Harris 1 Martinez 2 
: = Jack: 和 Mi11 2 
据 处 理 问题 。 学 生 被 分 为 若干 组 ， 标 号 为 1、2、 ri da 
3 等 。 在 某 些 情况 下 ， 我 们 希望 将 全 班 同学 按 组 分 Jonass 3 MCh 2 
类 。 因 为 组 的 编号 是 较 小 的 整数 ， 使 用 键 索引 计数 RE 
、 站 | rtinez Javis 
法 来 排序 是 很 合适 的 ， 请 见 图 5.1.1。 为 了 说 明 这 和 
种 方法 ， 假 设 数组 ar] 中 的 每 个 元 素 都 保存 了 一 个 wore :1 Jones 3 
名 字 和 一 个 组 号 ,其 中 组 号 在 0 到 R-1 之 间 ， 代 码 ET Goes aioe 
a[i .key0 会 返回 指定 学 生 的 组 号 。 这 种 方法 有 rib ON 
4 个 步 又， 我 们 会 依次 讲解 。 Thomas 4 Johnson 4 
5.1.1.1 ”频率 统计 sepa RE 
第 一 步 就 是 使 用 int 数组 count[] 计算 每 个 es 
键 出 现 的 频率 。 对 于 数组 中 的 每 个 元 素 ， 都 使 用 它 Wilson 4 Wilson 4 
的 键 访问 count[] 中 的 相应 元 素 并 将 其 加 1。 如 果 i 
键 为 r, 则 将 count[r+1] 加 1。( 为 什么 需要 加 17 小 的 整数 


这 么 做 的 原因 到 下 一 步 你 就 会 明白 了 。) 在 图 5.1.2 ”图 5.1.1 适 于 使 用 键 索 引 计数 法 的 典型 情况 














456 mr 第 5 章 字 符 事 


的 例子 中 ,首先 将 count[3] 加 1， 因 为 Anderson 在 第 二 组 中 ， 然 后 会 将 count[4] 加 2， 因为 
Brown 和 Davis 都 在 第 三 组 中 ， 如 此 继续 。 注 意 ，count [0] 的 值 总 是 0， 在 这 个 示例 中 count[1] 
的 值 也 为 0 (第 零 组 中 没有 学 生 ) 。 
5.1.1.2 ”将 频率 转换 为 索引 

接 下 来 ， 我 们 会 使 用 count[] 来 计算 每 个 键 在 排序 结果 中 的 起 始 索引 位 置 。 在 这 个 示例 中 ， 
因为 第 一 组 中 有 3 个 人 ,第 二 组 中 有 5 个 人 ， 因 此 第 三 组 中 的 同学 在 排序 结果 数组 中 的 起 始 位 置 为 
8。 一 般 来 说 , 任意 给 定 的 键 的 起 始 索引 均 为 所 有 较 小 的 键 所 对 应 的 出 现 频率 之 和 。 对 于 每 个 键 值 "， 
小 于 r+1 的 键 的 频率 之 和 为 小 于 r 的 键 的 频率 之 和 加 上 count[r] ， 因 此 从 左 向 右 将 count[] 转化 
为 一 张 用 于 排序 的 索引 表 是 很 容易 的 (请 见 图 5.1.3 ) 。 


8 


wwwwwwwwwvvorrrrooooclvs 


N 
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四 
S 
7 


Anderson 
Brown 
Davis 
Garcia 
Harris 
Jackson 
Johnson 
Jones 
Martin 
Martinez 
Miller 
Moore 
Robinson 
Smith 
Taylor 
Thomas 6 
Thompson 14 6 
White 14 20 
Williams 0/0 3 81420 
en 组 号 小 于 3 的 总 人 数 (第 三 组 
在 输出 中 的 起 始 索引 ) 


mwmmmhhhawwnrrrrrrPProwa 


AWUNAPAWANPNNPOAWPAWWN 


第 三 组 的 
总 人 数 


图 5.1.2 计算 出 现 频率 图 5.1.3 将 频率 转换 为 起 始 索 引 


5.1.1.3 ”数据 分 类 

在 将 count[] 数组 转换 为 一 张 索引 表 之 后 ， 将 所 有 元 素 ( 学 生 ) 移动 到 一 个 辅助 数组 aux[] 
中 以 进行 排序 。 每 个 元 素 在 aux[] 中 的 位 置 是 由 它 的 键 ( 组 别 ) 对 应 的 count[] 值 决定 ， 在 移动 
之 后 将 count[] 中 对 应 元 素 的 值 加 1， 以 保证 count[r] 总 是 下 一 个 键 为 r 的 元 素 在 aux[] 中 的 索 
引 位 置 。 这 个 过 程 只 需 遍历 一 遍 数 据 即 可 产生 排序 结果 ， 如 图 5.1.4 所 示 。 注 意 : 在 我 们 的 一 个 应 
用 中 ,这 种 实现 方式 的 稳定 性 是 很 关键 的 一 一 键 相同 的 元 素 在 排序 后 会 被 聚集 到 一 起 ， 但 相对 顺序 
没有 变化 ， 请 见 图 5.1.5。 
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i 
0 1 
1 14 Anderson 2 Marris 1 xmio 
2 9 4 Brown E、 Martin 1 上 
3 4 01 Davis- 3 Moore 
4 4 10 1 Garcia 4 Anderson 2 
5 4 10 1 Harris .1 Martinez 2 .0 
6 4 11 1 Jackson 3 Miller 2 
人 iT 1 Johnson 4 Robinson 2 
8 12 16 Jones 1 2a 
9 12 16 Martin 1 3 
10 2 i2 16 Martinez 2 入 
2 12 16 Miller. 过 3 iu 
12 I Moore 莹 2 
13 ? 1 Robinson 2 3 auxt 
14 1 Smith 4 3 auxf 
15 13 Taylor， 3 4 
16 1 Thomas 4 4 
17 13 19 1 Thompson 4 4 
18 81319 White-: 2 4 
19 $141 Williams 3 4， 
8 1 Wilson。 4 4 
3 814 20 ee 703 
a 1 
图 5.1.4 将 数据 分 类 ( 键 为 3 的 条 目 均 突出 显示 ) 704 
分 类 前 es 
aux [] [Seems | Sees | A [SNe 
coubt[0] ‘coubt[1] ~ count[2] counk[R-1] 
分 类 中 : ~ i 
aux[] 

















分 类 后 
” aux[] 











图 5.15 键 索引 计数 法 (分 类 阶段 ) 
5.1.14“ 回 写 ee F 
因为 我 们 在 将 元 素 移动 到 辅助 数组 的 过 程 中 完成 了 排序 ， 所 以 最 后 一 步 就 是 将 排序 的 结果 复制 
回 原 数组 中 。 有 
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命题 A。 刍 索引 计数 法 排序 个 键 为 0 到 R-1 之 间 的 整数 的 元 来 需要 访问 数组 11N+4R+1 次 。 


“证 明 。 根 据 代码 可 得 ， 初 始 化 数组 会 访问 数组 N+R+1 次 。 在 第 一 次 循环 中 ，N 个 元 素 均 会 使 
计数 据 的 值 加 1 (访问 数组 2N 次) ; 第 二 次 循环 会 进行 R 次 加 法 (访问 数组 2R 次 ) ; 第 三 
次 人 循 环 会 使 计数 器 的 值 增 大 NN 次 并 移动 N 次 数据 (访问 数组 3N 次 ) ; 第 四 次 循环 会 移动 数 

据 太 次 《访问 数组 2N 次 ) 。 所 有 的 移动 操作 都 维护 了 等 键 元 素 的 相对 顺序 。 


键 索引 计数 法 是 一 种 对 于 小 整数 键 排序 非常 有 
效 却 常常 被 忽略 的 排序 方法 。 理 解 它 的 工作 原理 是 
理解 字符 囊 排序 的 第 一 步 。 命 题 A 意味 着 键 索引 和 iD a new StCingrn; 
计数 法 突破 了 NiogN 的 排序 算法 运行 时 间 下 限 (之 。 /计算 出现 频 于 
前 已 经 证 明 过 ) 。 它 是 怎么 微 到 的 呢 ? 2.2 节 中 的 for Cint i = 0; 1 < N; i++) 
命题 I 证 明 的 是 所 需 的 比较 次 数 的 下 限 (只 能 通过 /So 
compareTo() 访问 数据 ) 一 一 键 索引 计数 法 不 需要 for Cint r = 0; r <Ri r++) 
比较 它 只 通过 key0 方法 访问 数据 ) 。 只 要 当 R /eb couneCr]; 
在 N 的 一 个 常数 因子 范围 之 内 ， 它 都 是 一 个 线性 时 for Cint i = 0; 1 < N; i+t) 


int N = a.length; 


间 级 别 的 排序 方法 友 feo TALT key O41 = a[i]; 
> 加 
for Cint i = 0; 1 < N; i++) 
5.1.2， 低位 优先 的 字符 串 排序 a[i] = aux[i]; 
我 们 学 习 的 第 一 个 字符 串 排序 算法 叫做 低位 优 键 索引 计数 法 (a[] .key(C) 为 [0,R) 
先 (LSD ) 的 字符 串 排序 。 考 虑 以 下 应 用 : 假设 有 之 间 的 一 个 整数 ) 
一 位 工程 师 架 设 了 一 个 设备 来 记录 给 定时 间 段 内 某 
条 忙碌 的 高 速 公路 上 所 有 车 辆 的 车 牌号 ， 他 希望 知 输入 排序 结果 
道 总 共有 多 少 辆 不 同 的 车 辆 经 过 了 这 段 高 速 公 路 。 4PGC938 1ICK750 
根据 2.1 节 你 可 以 知道 ， 解 决 这 个 问题 的 一 种 简单 a 
y ” 3CI0720 10HV845 
方法 就 是 将 所 有 车 牌号 排序 ， 然 后 遍历 并 找 出 所 有 TOO ha 
不 同 的 车 牌号 的 数量 ， 如 Dedup 所 示 (请 见 3.5.2.1 10HV845 = 10HV845 
a » 4]ZY524 2IYE230 
节 框 注 “Dedup 过 滤器 ”) 。 车 牌号 由 数字 和 字母 1icg750 Dad 
混合 组 成 ， 因 此 一 般 都 将 它们 表示 为 字符 串 。 在 最 3CI0720 2RLA629 
简单 的 情况 中 ( 例如 图 5.1.6 所 示 的 加 利 福 尼 亚 州 3 a 
的 车 牌号 ) ， 这 些 字符 串 的 长 度 都 是 相同 的 。 这 a so 
种 情况 在 排序 应 用 中 很 常见 一 一 比如 电话 号 码 、 2RLA629 4JZY524 
银行 账号 、IP 地 址 等 都 是 典型 的 定 长 字符 串 。 2 4PCC938 
将 此 类 字符 串 排序 可 以 通过 键 索引 计数 法 来 完 键 的 长 度 
成 ， 如 算法 5.1 (LSD ) 和 其 下 方 的 例子 所 示 。 如 果 光 让 基 
字符 串 的 长 度 均 为 灰 ， 那 就 从 右 向 左 以 每 个 位 置 的 图 5.1.6 二 
字符 作为 键 ， 用 刍 索 引 计数 法 将 字符 串 排序 所 遍 。 的 典型 情况 


“ 竺 一 看 你 很 难 相信 这 种 方法 能 够 产生 一 个 有 序 的 数 
组 一 事实 上 ， 除 非 键 索引 计数 法 是 稳定 的 ， 否 则 这 种 方法 是 行 不 通 的 。 在 研究 以 下 证 明 时 请 记 住 
这 一 点 并 参考 后 面 的 示例 。 
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命题 B。 低 位 优先 的 字符 串 排序 算法 能 够 物 定 地 将 定 长 字符 囊 排序 。 


证 明 。 由 命题 A 可 知 ， 该 命题 完全 依赖 于 键 索引 计数 法 的 实现 是 称 定 的 。 在 将 它们 的 最 后 了 个 字符 作 
为 键 (用 稳定 的 方式 ) 进行 排序 之 后 ， 可 以 知道 ， 任 意 两 个 键 在 数组 中 的 顺序 都 是 正确 的 《只 考虑 这 些 
字符 ) 。 要 么 因为 它们 的 倒数 第 站 个 字符 不 同 ， 所 以 排序 方法 已 经 将 它们 的 顺序 摆 交 正确 ; 要 么 它们 的 
.倒数 第 1 个 字符 相同 , 所 以 由 于 排序 的 稳定 性 它们 仍然 有 序 ( 由 归纳 法 可 知 , 对 于 让 工 这 一 点 仍然 正确 )。 


算法 5.1 低位 优先 的 字符 串 排 序 

















public class LSD 
全 
public static void sort(String[] a, int W) 
{ _// 通过 前 W 个 字符 将 a[] 排 序 
int N = a.length; 
int R = 256; 
String[] aux = new String[N]; 3 
for (int d = W-1; d >= 0; d--) 
{ // 根据 第 d 个 字符 用 键 索引 计数 法 排序 
fnt[] count = new int[R+1]; // 计算 出 现 频率 
for- (int 1 = 0; 1 < N; i++) 
count [a[i] .charAtCd) + 1]++; 
for (int r = 0;r <R; rtt) // 将 频率 转换 为 索引 
count[r+1] += count[r]; 
for Cint 1 = 0; 1 < N; i++) // 将 元 素 分 类 
aux[count[a[i] .charAt(d)]++] = a[i]; 
for (int 1 = 0; i < N; i++) 1/ 回 写 
a[i] = aux[i]; 


} 
要 将 每 个 元 素 均 为 含有 W 个 字符 的 字符 串 数组 a[] 排序 ， 要 进行 W 次 键 索 引 计数 排序 ， 从 右 向 左 ， 
以 每 个 位 置 的 字符 为 键 排序 一 次 。 


输 和 (We7) d=6 d=5. d=4. d=3 :d=2 de -d=0 输出 


4PGC938 0 20 230 A629 iCK750 SATW723 1ICK750 1ICK750 
2IYE230 0 20 524 A629 CK750 3CI0720 1ICK750 1ICK750 
3CI0720 0 23 629 C938 ‘GC938 -3CI0720 10HV845 10HV845 
1ICK750 0 24 629 E230 HV845 ICK750 1OHV845 10HV845 
1OHV845 0 29 720 K750 HV845 1ICK750 lOHV845 lOHV845 
4JZY524 于 29 720 K750 HV845 ZIYE230 2IYE230 2IYE230 
1ICK750 4 30 723 0720 I0720 4JZY524 2RLA629 2RLA629 
3CI0720 5 38 750 0720 I0720 JOHV845 2RLA629 2RLA629 
_10HV845 5 45 750 V845 LA629 iOHV845 3ATW723 3ATW723 
1OHV845 了 45 845 “V845 LA629 JOHV845 3CI0720 3CI0720 
2RLA629 8 45 845 V845 TW723 aPCGC938 3CI0720 3CI0720 
2RLA629 9 50 845 W723 YE230. - 2RLA629 4JZY524 . 4]ZY524 
3ATW723 盘 50 938 Y524 ZY524 SRLA629 4PGC938 4PCGC938 








460 办 第 5 章 字 符 串 


证 明 该 命题 的 另 一 种 方法 是 向 前 看 : 如 果 有 两 个 键 ， 它 们 中 还 没有 被 
检查 过 的 字符 都 是 完全 相同 的 ， 那 么 键 的 不 同 之 处 就 仅 限于 已 经 被 检查 过 的 y5 vA 42 
字符 。 因 为 两 个 键 已 经 被 排序 过 ， 所 以 出 于 稳定 性 它们 将 一 直 保持 有 序 。 另 SA XA 43 
外 ， 如 果 还 没 被 检查 过 的 部 分 是 不 同 的 ， 那 么 已 经 被 检查 过 的 字符 对 于 两 者 ka2 。 45 
的 最 终 顺 序 没有 意义 ， 之 后 的 某 轮 处 理会 根据 更 高 位 字符 的 不 同 修正 这 对 键 。*Q& v2 47 
的 顺序 。 9 

老式 的 卡片 打 孔 排序 机 使 用 的 就 是 低位 优先 的 基数 排序 法 。 这 类 机 器 。 *A “3 。10 
开发 于 20 世纪 初期 ， 比 用 计算 机 处 理 商 业 数据 的 时 代 早 了 数 十 年 。 这 种 机 *9 ?3 a 
器 能 够 根据 卡片 上 被 选 定 列 中 孔 的 模式 将 一 组 卡片 分 别 放 入 10 个 盒子 中 。 “8 “4 eK 
如 果 多 个 数字 被 打 在 这 组 卡片 的 多 个 列 上 ， 操 作 员 将 所 有 卡片 排序 的 方法 sk v4 v2 
就 是 先 根据 最 右边 的 数字 排序 ， 然 后 将 所 有 卡片 按照 顺序 下 好 并 再 次 根据 45 45 4 
倒数 第 二 个 数字 排序 ， 如 此 这 般 直 到 排序 第 一 个 数字 为 止 。 将 所 有 已 被 排 $9 “5 v5 
序 的 卡片 按 顺序 再 次 至 放 就 是 一 个 稳定 的 过 程 ， 键 案 引 计数 法 模仿 了 这 个 “2、 v5 v7 
过 程 。 在 整个 20 世纪 70 年 代 ， 这 个 版 本 的 低位 优先 基数 排序 法 不 仅 在 商  *9 *6 »9 
业 领 域 非常 重要 ， 许 多 严谨 的 程序 员 ( 和 学 生 ! ) 也 使 用 它 ， 因 为 他 们 需 。 7 《5 v0 
要 将 程序 保存 在 打 了 和 孔 的 卡片 上 ( 每 张 卡片 上 一 行 ) 并 且 会 在 一 组 完整 表 “4 v7 vaQ 
示 某 个 程序 的 卡片 的 最 后 几 列 打上 序号 ， 这 样 即使 卡片 散乱 之 后 也 能 将 它 。 “A ”27 YA 
们 重新 按 顺序 排列 。 这 也 是 一 种 将 扑克 牌 排序 的 简洁 方法 : 将 所 有 有 牌 ( 按 ?3 ?7 ?2 
大 小 ) 分 成 13 堆 ， 按 顺序 从 13 堆 排 中 抽取 同 种 花色 的 扑克 有 牌 ,最 后 将 13 v8 v8 。4 
堆 排 ( 按 花色 ) 变 为 4 堆 。 分 牌 的 过 程 是 稳定 的 ， 因 此 花色 中 的 牌 也 是 有 sk *8 46 
序 的 ， 所 以 按照 花色 将 这 4 堆 牌 合并 即 可 得 到 一 副 已 排序 的 扑克 牌 ,请 见 “4 $9 +7 
图 5.1.7。 vO 49 +9 

在 许多 字符 串 排序 的 应 用 中 ( 甚至 对 于 某 些 州 的 车 牌号 ) ， 键 的 长 度 。 45 #10 4] 
可 能 互 不 相同 。 改 进 后 的 低位 优先 的 字符 串 排序 是 可 以 适应 这 些 情况 的 , 但 +3 10 +Q 
我 们 将 这 个 任务 留 作 练习 ,因为 下 面 将 学 习 两 种 专门 处 理 变 长 键 排序 的 算法 。 “8 v10 A 

从 理论 上 说 ,低位 优先 的 字符 串 排序 的 意义 重大 ， 因 为 它 是 一 种 适用 。 9*3 v] 43 
于 一 般 应 用 的 线性 时 间 排 序 算法 。 无 论 有 多 大 ， 它 都 只 遍历 所 次 数据 。 0 3 +4 
具体 描述 如 下 。 “0 *Q +6 


命题 B ( 续 ) 。 对 于 基于 及 个 字符 的 字母 表 的 信 个 以 长 为 护 的 字符 束 ”SR 人 + 
为 键 的 元 素 ， pa a ae en 6 


用 的 额外 空间 与 入 + 成 正比 。 kk 
证明 。 该 方法 等 价 于 进行 万 轮 键 索 引 计数 法 ， 但 是 aux[] ER 图 5.1.7 用 信人 
化 一 次 。 根 据 前 面 的 代码 和 命题 A 即 可 得 到 算法 访问 数组 和 使 用 空间 排序 算法 
的 总 数 。 将 一 副 扑 
克 牌 排序 


对 于 典型 的 应 用 ，R 远 小 于 N， 因 此 命题 B 说 明 算法 的 总 运行 时 间 与 WN 成 正比 。N 个 长 为 
到 的 字符 串 的 输入 总 共 含有 PN 个 字符 ， 因 此 低位 优先 的 字符 串 排序 的 运行 时 间 与 输入 的 规模 成 
正比 。 
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5.1.3 ”高 位 优先 的 字符 串 排序 
要 实现 一 个 通用 的 字符 申 排序 算法 ( 字符 串 的 长度 不 一 定 相同 ) ， 我 们 应 该 考虑 从 左 向 右 沉 历 
所 有 字符 。 我 们 知道 ， 以 a 开头 的 字符 串 应 该 排 在 以 b 开头 的 字符 串 前 面 ， 等 等 。 实 现 这 种 思想 的 
4] skK shA 一 个 很 自然 方法 就 是 一 种 递归 算法 , 被 称 为 高 位 优先 ( MSD ) 的 字符 串 排序 ， 
Y5 4^] 42 ”请 见 图 $.1.8。 首先 用 键 索引 计数 法 将 所 有 字符 串 按照 首 字母 排序 ,然后 ( 递 
vA 5 4  ” 归 地 ) 再 将 每 个 首 字母 所 对 应 的 子 数组 排序 (忽略 首 字母 ， 因 为 每 一 类 中 
5 人 人。 的 所 有 字符 吕 的 首 字母 都 是 相同 的 ) 。 和 快速 排序 一 样 ， 高 位 优先 的 字符 
*Q “3 “7 中 排序 会 将 数组 切 分 为 能 够 独立 排序 的 子 数组 来 完成 排序 任务 ， 但 它 的 切 
4] 46 “9 分 会 为 每 个 首 字母 得 到 一 个 于 数组 ， 而 不 是 像 快速 排序 中 那样 产生 固定 的 
请 全 二。 二 了 两 个 或 三 个 切 分 ， 请 见 图 5.1.9。 
*9 410  ^Q 5.1.3.1 对 字符 素 未 尾 的 约定 
a tS on 在 高 位 优先 的 字符 叫 排序 算法 中 ,要 特别 注意 到 达 字 符 趾 末尾 的 情况 。 
?4 YI] Y3 ”在 排序 中 ,合理 的 做 法 是 将 所 有 字符 者 已 被 检 查 过 的 字符 串 所 在 的 子 数组 排 
$5 v9 v4 在 所 有 子 数组 的 前 面 , 这 样 就 不 需要 递归 地 将 该 子 数组 排序 , 请 见 图 5.1.10。 
v3 ”v7 v6 “为 了 简化 这 两 步 计算 ,我 们 使 用 了 一 个 接受 两 个 参数 的 私有 方法 tochar() 
$10 “8 »8 ”来 将 字符 申 中 字符 索引 转化 为 数组 索引 ，- 当 指定 的 位 置 超过 字符 串 的 末 
.#9 9Q v9 ” 尾 时 该 方法 返回 -1。 然 后 将 所 有 返回 值 加 1， 得 到 一 个 非 负 的 int 值 并 用 
#4 v2 9] ，“ 它 作为 count[] 的 索引 。 这 种 转换 意味 着 字符 品 中 的 每 个 字符 都 可 能 产生 

















410 v5 wkK 有” é R+1 中 不 同 的 值 ; 0 表示 字 
2 0 全。 机 为了 二。 当地 晤 ， 。 生 章 的 结 幢 ，1 表示 字母 
计 Se > 法 - -的 第 一 个 字符 ，2 表示 字母 
bs 一 杞 :一 一 表 的 第 二 个 字符 ， 等 等 。 因 
ni ed 二 = [== 为 键 索引 计数 法 本 来 就 需要 
Sg -= = 一 个 疾 外 的 位 置 ， 所 以 使 用 
+ +3 410 Sr 代码 int count[] = new 一 
46 +7 +] ey i int[R+2]; 创建 记录 统计 频 [708 
| 2 了 上 一 于 率 的 数组 ( 将 所 有 值 设 为 0)。 |zio| 
0 上 一 一 《En 注意 : 某 些 编程 语言 ， 特 别 
?3 eA #3 Es ,= 是 C 和 C++， 已 经 约定 了 字 _ 
0 5 ss 符 申 结束 的 表示 方法 ， 因 此 
0 > 对 于 这 类 语言 本 节 的 代码 需 “ 
> Fm —| 要 进行 相应 的 调整 。 
wk #7 #10 F— = 有 了 这 些 预备 知识 ， 就 
ee 到 := 会 知道 算法 52 实现 高 位 优 
+8 #48 4K PP 先 的 字符 串 排序 算法 所 需 的 
5 用 训 位 代 元。 ee 新 代码 其 实 并 不 多 。 增 加 了 - 

的 字符 曲 排 : : _ 一 个 条 件 语句 以 在 子 数组 较 

三 序 算 法 将 > 。- 小 时 切换 插入 排序 ,“( 这 里 


图 5.1.9 高 位 优先 的 字符 囊 排序 的 示意 图 。 ”使 用 的 是 一 个 特殊 版 本 的 择 “ 
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符 串 


和 排序， 我 们 会 在 稍 后 考察 。 ) 还 添加 了 一 个 键 索引 计数 法 的 循 输入 
环 来 完成 递归 调用 。 从 表 5.1.1 可 知 ，count[] 数组 中 的 值 (在 。 she 


sells 


统计 频率 、 转 换 为 索引 并 将 数据 分 类 之 后 ) 正 是 将 每 个 字符 所 对 seashe11s 
应 的 子 数组 ( 递归 地 ) 排序 时 所 需要 的 值 。 Wy 

the 
5.1.3.2 ”指定 的 字母 表 seashore 


高 位 优先 的 字符 串 排序 的 成 本 与 字母 表 中 的 字符 数量 有 很 大 shel1s 
关系 。 我 们 可 以 很 容易 地 令 排序 算法 修 接受 一 个 Alphabet 对 象 。 ”she 信和 攻 
作为 参数 ， 以 改进 基于 较 小 的 字母 表 的 字符 串 排 序 程序 的 性 能 。 5e11s 


完成 这 一 点 需要 进行 如 下 改动 ; i 
口 在 构造 函数 中 用 一 个 alpha 对 象 保存 字母 表 ; seashells 


口 在 构造 函数 中 将 R 设 为 alpha.RO; 


seashells 
seashells 
seashore 
sells 
sells 

she 

she 
shells 
surely 
the 

the 


图 5.1.10 适 于 使 用 高 位 优先 




















口 在 charAt() 方 法 中 将 s.charAt(d) 替换 为 alpha. 的 字符 串 排序 的 典 
toIndex(s.charAt(d))。 型 情况 
表 5.1.1 高 位 优先 的 字符 串 排序 中 count[] 数组 的 意义 
第 d 个 字符 排序 的 count[r] 的 值 
完成 阶段 r=0 | rl [r 在 2 与 R-1 之 间 | r=R | r=R+1 
0 (未 使 用 ) 长 度 为 d 的 字符 | 第 d 个 字符 的 索引 值 是 r-2 的 字符 串 
频率 统计 | 申 数量 | 的 数量 
长 度 为 d 的 字符 串 的 子 数组 | 第 d 个 字符 的 索引 值 是 r-1 的 字符 串 的 子 数组 | 未 使 用 
将 频率 转化 为 索引 | 的 起 始 索 引 的 起 始 索 引 
| 第 d 个 字符 的 案 引 值 为 的 字符 串 的 子 数 组 的 起 始 索引 | 未 使 用 
数据 分 类 1+ 长 度 为 d 的 字符 申 的 子 数 | 1+ 第 d 个 字符 串 的 案 引 值 是 r-1 的 字符 串 的 子 | 未 使 用 
组 的 结束 索引 数组 的 结束 索引 
在 本 节 的 示例 中 ,字符 串 都 是 由 小 写字 母 组 成 的 。 扩 展 低 位 优先 的 字符 串 排序 算法 以 支持 这 种 
特性 也 很 简单 ， 但 带 来 的 性 能 提升 一 般 比 高 位 优先 的 字符 串 排序 小 得 多 。 





算法 5.2 高 位 优先 的 字符 串 排序 





public class MSD 


{ 
private static int R = 256; // 基数 
private static final int M = 15; 。 // 小 数组 的 切换 辣 什 
private static String[] aux; // 数据 分 类 的 辅助 数组 


private static int charAt(String s, int d) 


{ if (d < s.length()) return s.charAt(d); else return -1; } 


public static void sort(String[] a) 


{ 


int N = a.length; 
aux = new String[N]; 
sort(a, 0, N-1, 0); 


} 


private static void sort(String[] a, int lo, int hi, int d) 
{ // 以 第 d 个 字符 为 链 将 a[10] 至 a[h 让 振 序 

if (hi <= lo + Mm) 

{ Insertion.sort(a, lo0, hi, d); return; } 
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int[] count = new int[R+2]; // 计算 频率 

for Cint i = 10; i <= hi; it 
count[charAt(a[i], d) + 2]++; 

for Cint r = 0; r < R+l; ri+) // 将 频率 转换 为 索引 
count[r+1] += count[r]; 

for (int i = lo; i <= hi; i++) // 数据 分 类 
aux[count[charAt(a[i], d) + 1]++] = afi]; 

for Cint i = 1oi i <= hi; i++) // 回 写 
a[i] = aux[i - 1o]; 


// 运 归 的 以 每 个 字符 为 键 进 行 排序 
for (int r = 0; r < Ri ri+) 
sort(a, lo + count[r], lo + count[r+1] - 1, d+1D); 


3 


在 将 一 个 字符 串 数组 a[] 排序 时 ， 首 先 根据 它们 的 首 字母 用 键 索引 计数 法 进行 排序 ， 然 后 (递归 地 ) 
根据 子 数组 中 的 字符 串 的 首 字母 将 子 数组 排序 。 712 








算法 5.2 中 的 代码 的 简洁 令 人 刮目相看 ， 它 隐藏 了 一 些 非常 复杂 的 计算 。 花 些 时 间 深入 研究 图 
5.1.11 所 示 的 算法 顶层 调用 轨迹 和 图 5.1.12 中 递归 调用 的 轨迹 以 确保 你 理解 了 这 个 算法 的 精妙 之 处 ， 
这 些 时 间 不 会 白花 。 在 这 上段 轨 迹 中 ， 小 数组 的 插入 排序 切换 阔 值 (M) 为 0， 因此 你 可 以 看 到 完整 
的 排序 过 程 。 在 这 个 例子 中 ， 字符 串 来 自 于 Alphabet.LOWERCASE， 其 中 R=26。 一 般 的 应 用 使 用 
的 大 都 是 R=256 的 Alphabet.EXTENDED_ASCII， 或 是 R=65 536 的 Alphabet.UNICODE。 对 于 较 大 
的 字母 表 ， 高 位 优先 的 排序 算法 虽然 简单 但 可 能 会 很 危险 一 一 如 果 使 用 不 当 ， 它 可 能 会 消耗 令 人 无 
法 承受 的 时 间 和 空间 。 在 仔细 研究 它 的 性 能 特点 之 前 ， 我 们 要 先 讨论 三 个 在 任何 应 用 中 都 必须 解决 
的 重要 的 问题 ( 这些 问 题 曾 在 第 2 章 中 讨论 过 ) 。 


人 用 扫 相持 笋 汉 对 前 水 纸 挤 学 道 归 地 将 子 数组 排序 
记录 频率 。 换 为 索引 和 数据 分 类 结束 后 的 索引 
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图 5.1.11 高 位 优先 的 字符 串 排序 ，sort(a，0，14，0) 的 顶层 轨迹 
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图 5.1.12 高位 优先 的 字符 申 排序 的 进 归 调用 氏 述 (小 数组 不 会 切换 到 插入 排序 ， 大 小 为 0 和 1 的 子 数 
组 忆 补 省略) 。 s 


5.1.3;3. 让 型 了 数组 

高位 优先 的 字符 申 排 的 基本 思想 是 很 有 效 的 : 在 一 般 的 应 用 中 ， 只 需 检查 若干 个 字符 就 能 完 B 
成 所 有 字符 捉 的 排序 。 换 句 话说 ， 这 种 方法 能 够 快速 地 将 需要 排序 的 数组 切 分 为 较 小 的 数组 。 但 这 
种 切 分 也 是 -- 把 双 刃 剑 : 我 们 肯定 会 需要 处 理 大 量 微型 数组 ， 因 此 必须 快速 处 理 它们 。 小 型 子 数 组 


对 于 高 位 优先 的 字符 串 排 序 的 性 能 至 关 重 和 要。 我 们 在 其 他 递归 排序 算法 中 也 遇 到 过 这 种 情况 〈 快速 


排序 和 归并 排序 ) ， 但 小 数组 对 于 高 位 优先 的 字符 串 排序 的 影响 尤其 强烈 。 例 如 ， 假 设 你 需要 将 数 
百 万 个 不 同 的 ASCII 字符 串 ( R=256 ) 排序 且 不 会 对 小 数组 进行 特殊 处 理 。 每 个 字符 申 最 终 都 会 产 


. 生 一 个 只 含有 它 自己 的 子 数组 ， 因 此 你 需要 将 数 百 万 个 大 小 为 1 的 子 数组 排序 。 但 每 次 排序 都 需要 


将 Eount[] 的 258 个 元 素 初 始 化 为 0 并 将 它们 都 转化 为 索引 。 这 种 代价 比 排序 的 其 他 部 分 要 高 很 多 。 
在 使 用 Unicode 时 ( R=655 36 ) ， 排 序 过 程 可 能 会 减 慢 上 千 倍 。 事 实 上 ， 正 因为 如 此 ,许多 使 用 排 
序 但 考虑 不 周 的 程序 在 从 ASCII 切换 到 Unicode 后 运行 时 间 从 几 分 钟 暴涨 到 几 个 小 时 。 然 而 ， 将 小 
数组 切换 到 插入 排序 对 于 高 位 优先 的 字符 串 排序 算法 是 必须 的 。 为 了 避免 重复 检查 已 知 相同 的 字符 
所 带 来 的 成 本 ， 我们 使 用 了 后 面 框 注 “ 对 前 d 个 字符 均 相 同 的 字符 串 执行 插入 排序 ”中 给 出 的 一 个 
版 本 的 插入 排序 。 它 接受 一 个 额外 的 参数 d 并 假设 所 有 需要 排序 的 字符 串 的 前 d 个 字符 都 是 相同 的 。 
这 段 代码 的 效率 取决 于 substringQ 方法 所 需 的 时 间 是 否 为 常数 。 和 快速 排序 以 及 归并 排序 一 样 ， 


一 个 较 小 的 转换 阔 值 就 能 将 性 能 提高 很 多 ， 但 对 于 高 
位 优先 的 字符 串 排序 算法 它 节约 的 时 间 是 非常 可 观 的 。 
图 5.1.13 显示 了 一 个 典型 应 用 中 的 实验 结果 。 在 长 度 
小 于 等 于 10 时 将 子 数组 切换 到 插入 排序 能 够 将 运行 时 
间 降 低 为 原来 的 十 分 之 一 。 
5.1.3.4 ”等 值 键 

高 位 优先 的 字符 串 排序 中 的 第 二 个 陷阱 是 ， 对 于 
含有 大 量 等 值 键 的 子 数组 的 排序 会 较 慢 。 如 果 相 同 的 
子 字符 串 出 现 得 过 多 , 切换 排序 方法 条 件 将 不 会 出 现 ， 
那么 递归 方法 就 会 检查 所 有 相同 键 中 的 每 一 个 字符 。 
另外 ， 键 索引 计数 法 无 法 有 效 判断 字符 串 中 的 字符 是 
否 全 部 相同 ， 它 不 仅 需要 检查 每 个 字符 和 移动 每 个 字 
符 串 ， 还 需要 初始 化 所 有 的 频率 统计 并 将 它们 转换 为 
索引 等 。 因 此 ， 高 位 优先 的 字符 串 排序 的 最 坏 情 况 就 
是 所 有 的 键 均 相同 。 大 量 含有 相同 前 缀 的 键 也 会 产生 
-同样 的 间 题 ， 这 在 一 般 的 应 用 场景 中 是 很 常见 的 。 


.5.1.3.5 额外 空间 


为 了 进行 切 分 ， 高 位 优先 的 算法 使 用 了 两 个 辅助 
数组 : 一 个 用 来 将 数据 分 类 的 临时 数组 ( aux[] ) 和 
一 个 用 来 保存 将 会 被 转化 为 切 分 索引 的 统计 频率 的 数 


组 (count[] ) 。aux[] 的 大 小 为 Y 且 可 以 在 递归 方法 sort() 外 创建 。 如 果 牺 牲 稳定 性 ， 则 可 以 去 ， 
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图 5.1.13 高 位 优先 的 字符 串 排序 算法 中 
Ee 


掉 aux[] 数组 (请 见 练习 5.1.17) ， 但 它 并 不 是 高 位 优先 的 字符 串 排序 算法 在 实际 应 用 中 所 关注 的 
内 容 。 相 反 ，count[] 所 需 的 空间 才 是 主要 问题 (因为 它 不 能 在 递归 方法 sort( 之 外 创建 ) ， 如 下 


文 的 命题 D 所 述 。 


public static void sort(String[] a，int lo, int hi, int d) 


人 { // 对 前 d 个 字符 排序 ， 从 a[10] 到 a[hi] 


for (int 1 = 10; 
for (int j = 
exch(a, j, 


i c= hi; i++) 






); 
¥ 


ij> lo & lessCGa[j], alj-1], d); j--) 


private static boolean less(String v, String w, int d) 
{ return v.substring(d).compareTo(w.substring(d)) < 0; } 


对 前 d 个 字符 均 相同 的 字符 串 执行 插 入 排序 


5.1.3.6 ”随机 字符 串 模型 


为 了 研究 高 位 优先 的 字符 串 排序 算法 的 性 能 ， 我 们 使 用 了 一 个 随机 字符 囊 模 型 其 中 每 个 字符 串 
都 (独立 的 ) 由 随机 字符 组 成 ， 长 度 没有 限制 。 这 实际 上 排除 了 出 现 较 长 的 等 值 键 的 情况 ， 因 为 它们 
出 现 的 几率 非常 小 。 高 位 优先 的 字符 种 排序 算法 在 这 个 模型 中 的 表现 和 随机 定 长 键 模型 中 的 表现 类 似 ， 
也 和 它 在 一 般 的 真实 数据 中 的 性 能 类 似 。 我 们 将 会 看 到 ,在 这 三 种 情况 中 ， 高 位 优先 的 字符 串 排序 算 


法 通常 都 只 需要 检查 每 个 键 开头 的 若干 个 字符 即 可 。 
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5.1.3.7 性 能 
高 位 优先 的 字符 串 排序 算法 的 性 能 取决 于 数据 。 对 fe 
于 基于 比较 的 方法 ， 我 们 主要 关注 的 是 刍 的 顺序 ， 对 于 。。 随机 字符 串 。。 且 有 重复 ( 捷 
高 位 优先 的 字符 排序 算法 ， 链 的 顺序 并 不 重要 ， 我 们 人 
关注 的 是 键 所 对 应 的 值 ， 请 见 图 5.1.14。 b 
. 口 对 于 随机 输入 ， 高 位 优先 的 字符 申 排序 算法 只 2 
会 检查 足以 区 别 字符 串 所 需 的 字符 。 相 对 于 输 人 
人 数据 中 的 字符 总 数 ， 算 法 的 运行 时 间 是 亚 线 Sl 
性 的 ( 它 只 会 检查 输入 字符 中 的 一 小 部 分 ) 。 3 
口 对 于 非 随机 的 输入 ， 高 位 优先 的 字符 串 排序 算 3 
法 可 能 仍然 是 亚 线性 的 ， 但 需要 检查 的 字符 可 shells 
能 比 随机 情况 下 更 多 。 特别 是 对 于 相等 的 键 ， 小 
， 它 需要 检查 它们 的 所 有 字符 ， 所 以 当 存在 大 量 
等 信 刍 时 它 所 需 的 运行 时 间 是 接近 线性 的 。 
口 在 最 坏 情况 下 ， 高 位 优先 的 字符 串 排序 算法 会 
检查 所 有 键 中 的 所 有 字符 ， 所 以 相对 于 数据 中 
的 所 有 字符 它 所 需 的 运行 时 间 是 线性 的 ( 和 低 
位 优先 的 字符 串 排序 算法 相同 ) 。 最 坏 情况 下 
的 输入 中 所 有 的 字符 串 均 相同 。 


surely 
the 
the 





最 坏 情况 
【线性 时 间 ) 
1DNB377 
1DNB377 
1DNB377 
1DNB377 
1DNB377 
1DNB377 
1DNB377 
1DNB377 
1DNB377 
1DNB377 
IDNB377 
1DNB377 
1DNB377 
1DNB377 


图 5.1.14 高 位 优先 的 字符 申 排序 算法 的 
字符 检查 情况 


某 些 应 用 程序 所 处 理 的 键 和 随机 字符 串 模型 能 很 好 匹配 ， 而 有 些 则 含有 很多 重复 的 刍 或 是 较 长 
的 公共 前 级 ， 这 种 情况 下 排序 所 需 的 时 间 和 最 坏 情况 接近 。 比 如 ， 在 我 们 的 车 牌号 处 理应 用 程序 中 
这 两 种 极端 情况 都 可 能 出 现 ， 如 果 工 程 师 选取 一 条 繁忙 的 州 际 公路 一 小 时 的 数据 ， 那 么 数据 中 的 重 
复 项 会 很 少 ,符合 随机 模型 ; 如 果 取 的 是 一 条 乡间 小 道 一 个 星期 的 数据 ， 那 么 数据 中 肯定 会 有 大 量 


”的 重复 项 ,算法 的 性 能 将 会 和 最 坏 情况 类 似 。 
作为 提示 以 及 对 为 何 该 证 明 已 经 超出 了 本 书 的 范围 的 说 明 ， 我 在 这 里 提醒 大 家 注意 ， 


命题 的 结 


论 和 键 的 长 度 是 无 关 的 。 事 实 上 ， 随 机 字符 串 模型 所 允许 的 键 长 接近 无 限 。 两 个 键 之 间 有 任意 多 的 


字符 相 吻 合 ， 这 个 可 能 性 不 是 零 ， 但 这 个 可 能 性 非常 小 ， 在 估计 性 能 时 可 以 将 其 忽略 。 


由 以 上 讨论 可 以 知道 ， 检 查 的 字符 数量 并 不 是 高 位 优先 的 字符 串 排序 算法 性 能 的 全 部 。 我 们 还 


需要 考虑 统计 字符 的 出 现 频率 以 及 将 频率 转化 为 索引 所 需要 的 时 间 和 空间 。 


命题 C。 要 将 基于 大 小 为 的 字母 表 的 NN 个 字符 囊 排 序 ， 高 位 优先 的 字符 串 排 序 算法 平均 需要 


” 检查 NogaN 个 字符 。 










的 经 典 例子 ， 最 旱 由 Knuth 完成 于 20 世纪 70 年 代 早期 。 


着 电子 数组 的 天 小 几 笠 都 是 相同 的 ， 因 下 昌 推 关系 CRCVRtN 可 以 近似 地 并 
E 并 得 到 命题 所 述 的 结果 。 它 也 是 第 2 章 中 快速 排序 性 能 证 明 的 一 般 化 证 明 。 另 一 
不 完全 准确 。 因 为 MR 并 不 一 定 能 够 得 到 整数 ， 子 数组 的 大 小 相同 也 仅 是 平 
实 中 链 的 长 度 是 有 限 的 ) 。 这 些 因素 对 高 位 优先 的 字符 束 排 序 算法 的 影响 比 
响 小 ， 因 此 算法 运行 时 间 中 的 最 大 项 就 是 这 个 递 推 关系 的 答案 。 这 个 
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命题 D。 要 将 基于 大 小 为 尽 的 字母 表 的 N 个 字符 毕 排 序 ， 高 位 优先 的 字符 串 排序 算法 访问 数 
组 的 次 数 在 SN+ 3R 到 7wN+3wR 之 间 ， 其 中 w 是 字符 囊 的 平均 长 度 。 


证 明 。 由 代码 、 命 题 A 和 命题 B 可 得 ,在 最 好 情况 下 高 位 优先 的 排序 算法 只 需 遍 历数 据 一 轮 ; 
而 在 最 坏 情况 下 ， 它 和 低位 优先 的 字符 吕 排 序 算法 的 性 能 类 似 。 


当 入 较 小 时 ，R 是 主要 因子 。 尽 管 对 总 成 本 的 精确 分 析 是 困难 而 复杂 的 ， 但 你 只 需 考虑 无 重复 
键 的 情况 下 所 有 较 小 的 子 数组 就 可 以 估计 出 该 成 本 的 实际 效果 。 在 不 为 较 小 的 子 数组 切换 排序 方法 
的 情况 下 ， 每 个 键 都 会 产生 一 个 单独 的 子 数组 ， 因 此 仅 为 处 理 这 些 子 数组 就 需要 访问 NR 次 数组 。 
如 果 为 小 于 M 的 数组 切换 排序 方法 ， 将 会 有 N/M 个 大 小 为 M 的 子 数组 ， 因 此 等 于 是 在 用 NM4 次 
比较 换取 NR/M 次 数组 访问 ， 这 说 明 应 该 选择 与 R 的 平方 根 成 正比 的 M。 


命题 D〈 续 ) 。 要 将 基于 大 小 为 尺 的 字母 表 的 入 个 字符 串 排序 ， 最 坏 情况 下 高 位 优先 的 字符 串 
排序 算法 所 需 的 空间 与 R 乘 以 最 长 的 字符 串 的 长 度 之 积 成 正比 (再 加 上 NN) 。 


证 明 。count[] 数组 必须 在 sort() 中 创建 ， 因 此 空间 需求 的 总 量 与 R 和 递归 的 深度 之 积 成 
正比 (再 加 上 辅助 数组 的 大 小 NN) 。 准 确 地 说 ， 递 归 的 深度 即 最 长 字符 串 的 长 度 ， 也 就 是 两 
个 或 多 个 被 排序 的 字符 串 的 公共 前 组 的 长 度 。 


正如 刚才 所 讨论 的 ， 相 等 的 键 使 得 递归 的 深度 和 键 的 长 度 成 正比 。 由 命题 D 马上 可 以 推论 
出 ， 在 用 高 位 优先 的 字符 串 排序 算法 将 基于 大 型 字母 表 的 长 字符 串 排序 时 ， 它 很 有 可 能 消耗 过 多 的 
时 间或 者 空间 ， 特 别 是 在 已 知 可 能 出 现 较 长 的 等 值 键 的 情况 下 。 例 如 ， 如 果 使 用 的 是 Alphabet . 
UNICODE 且 某 些 字符 串 中 公共 前 缀 的 长 度 超过 1000 个 字符 ， 那 么 MSD. sort() 将 需要 为 超过 6500 
万 个 计数 器 元 素 分 配 空间 ! 

在 将 长 字符 串 排序 时 ， 令 高 位 优先 的 字符 串 排序 算法 发 挥 出 最 大 效率 的 主要 挑战 在 于 处 理 数据 中 
的 非 随机 因素 。 一 般 来 说 ， 一 些 键 可 能 存在 较 长 的 公共 部 分 ， 或 者 部 分 键 的 取 值 范围 有 限 。 比 如 ， 在 
处 理学 生 信息 的 应 用 程序 中 , 数据 的 键 可 能 是 毕业 年 份 (4 个 字 节 , 但 只 有 4 种 可 能 的 值 ) , 州 名 (可 
能 需要 10 个 字 节 ,但 只 有 50 种 可 能 的 值 ) ， 性 别 (1 个 字 节 ，2 种 值 ) 以 及 学 生 的 姓名 ( 和 随机 字 
符 串 最 接近 ， 但 有 可 能 很 长 ， 字 母 出 现 频率 的 分 布 并 不 均匀 且 当 该 栏 长 度 固定 时 字符 串 的 未 尾 会 被 添 
加 许多 空格 ) 。 这 些 限制 使 得 高 位 优先 的 字符 串 排序 算法 会 产生 许多 空子 数组 。 下 面 我 们 将 学 习 一 种 
能 够 漂亮 地 解决 这 个 问题 的 算法 。 


5.1.4 三 向 字符 串 快 速 排序 

我 们 也 可 以 根据 高 位 优先 的 字符 串 排序 算法 改进 快速 排序 ， 根 据 键 的 首 字母 进行 三 向 切 分 ， 仅 
在 中 间 子 数组 中 的 下 一 个 字符 因为 键 的 首 字母 都 与 切 分 字符 相等 ) 继续 递归 排序 。 这 个 算法 的 实 
现 并 不 困难 ， 请 见 算法 53: 我 们 只 是 为 算法 2.5 中 的 递归 方法 添加 了 一 个 参数 来 保存 当前 的 切 分 字 
母 并 令 三 向 切 分 的 代码 使 用 该 字符 ， 然 后 递归 适当 修正 方法 ， 请 见 图 5.1.15。 

尽管 排序 的 方式 有 所 不 同 ， 但 三 向 字符 串 快速 排序 根据 的 仍然 是 键 的 首 字母 并 使 用 递归 方法 将 
其 余部 分 的 键 排序 。 对 于 字符 串 的 排序 ， 这 个 方法 比 普通 的 快速 排序 和 高 位 优先 的 字符 串 排序 更 友 
好 。 实 际 上 ， 它 就 是 这 两 种 算法 的 结合 。 
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三 向 字符 串 快速 排序 只 将 数组 切 分 为 三 部 分 ， 因 此 当 相应 的 高 位 优先 的 字符 串 排序 产生 的 非 空 
切 分 较 多 时 ， 它 需要 移动 的 数据 量 就 会 变 大 ， 因 为 它 需 要 进行 一 系列 的 三 向 切 分 才能 取得 多 向 切 分 
的 效果 。 但 是 ， 高 位 优先 的 字符 串 排序 可 能 会 创建 大 量 ( 空 ) 子 数组 ， 而 三 向 字符 串 快速 排序 的 切 
分 总 是 只 有 三 个 。 因 此 三 向 字符 串 快速 排序 能 够 很 好 处 理 等 值 键 、 有 较 长 公共 前 级 的 键 、 取 值 范 围 
较 小 的 键 和 小 数组 一 一 所 有 高 位 优先 的 字符 串 排序 算法 不 善 长 的 各 种 情况 ， 请 见 图 5.1:16。 特 别 重 
要 的 一 点 是 ， 这 种 切 分 方法 能 够 适应 键 的 不 同 部 分 的 不 同 结构 。 和 快速 排序 一 样 ， 三 向 字符 申 快速 
排序 也 不 需要 额外 的 空间 ( 递归 所 需 的 隐 式 栈 除 外 ), 这 是 它 相 比 高 位 优先 的 字符 串 排序 的 一 大 优点 ， 
后 者 在 统计 频率 和 使 用 辅助 数组 时 都 需要 空间 。 

使 用 首 字母 将 数据 切 递归 地 将 子 数组 排 、 
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输入 排序 结果 


edu.princeton.cs com.adobe 
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图 5.1.15 三 向 字符 串 快速 排序 的 示意 图 图 5.1.16 ” 适 于 使 用 三 向 字符 串 快速 排序 的 典型 情况 
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图 5.1.17 显示 了 Quick3string 在 处 理 样 例 数据 时 产生 的 所 有 递归 调用 。 每 个 子 数组 都 正好 只 
用 了 三 个 递归 调用 就 完成 了 排序 ， 只 是 省 略 了 中 间 子 数组 中 到 达 ( 相等 的 ) 字符 串 的 结尾 时 的 递归 
调用 。 i 

和 以 前 一 样 ， 在 实际 应 用 中 下 列 对 算法 5.3 的 标准 改进 都 是 很 值得 考虑 的 。 

”5.1.4.1 小 型 子 数组 a 

在 所 有 的 递归 算法 中 ， 我 们 都 可 以 通过 对 小 型 子 数组 进行 特殊 处 理 来 提高 效率 。 这 里 使 用 的 是 
5.1.2.3 框 注 中 的 “对 前 d 个 字符 均 相同 的 字符 串 执行 插入 排序 ”中 的 插入 排序 ， 它 能 够 跳 过 已 知 相 
等 的 字符 。 这 项 修改 带 来 的 改进 会 很 明显 ， 尽 管 它 在 三 向 字符 串 排序 的 重要 性 远 不 如 它 在 高 位 优先 
的 字符 串 排序 的 重要 性 高 。 
5.1.4.2 “有 限 的 字母 表 

为 了 处 理 特殊 的 字母 表 ， 可 以 为 所 有 方法 添加 一 个 Alphabet 类 型 的 参数 alpha 并 在 charAt() 
方法 中 将 s.charAt(d) 替换 为 a1pha.toIndex(s.charAt(d))。 在 这 里 ， 这 么 做 并 不 能 得 到 什么 收 
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益 , 相反 深 加 这 自 代 码 可 能 全 大幅 降 低 算法 的 运行 速度 ， 因为 它 在 内 循环 之 中 。 
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算法 5.3 


图 5.1.7 三 向 字符 串 快速 排序 的 递归 调用 轨迹 (不 在 子 数组 较 小 时 切换 排序 方法 ) 


三 向 字符 串 快速 排序 





public class Quick3string 
{ 


了 


private static int charAt(String s, int d) 

{ if (d < s.length()) return s.charAt(d); else return -1; } 
public static void sort(String[] a) 

{ ‘sort(a, 0, a.length - 1, 0); } 

private static void sort(String[] a, int lo, int hi, int d) 


if (hi <= 10) return; 
int lt = lo, gt = hi; 
int v = charAt(a[10], d); 
int i = lo+ 1; 

while (i <= gt) 

业 


int t = charAt€a[i], d); 

if (t < v) exch(a, 1t++, i++); 
else if (t > v) exch(a, i, gt--); 
else + 


} 2 
/7.allo. Nt-1] < = a[lt..gt] <.algt+1. :hil 
sort{a, lo, 1t-1,-d. s 
if (v >= 0) sort(a, 1t, gt, d+l); 
sort(a, gt+1, hi, d); b 





在 将 字符 串 数组 a[] 排序 时 ， 根 据 它们 的 首 字母 进行 三 向 切 分 ， 然 后 (递归 地 ) 将 得 到 的 三 个 子 数 
组 排序 ; 一 个 含有 所 有 首 字母 小 于 切 分 字符 的 字符 串 子 数组 ， 一 个 含有 所 有 首 字母 等 于 切 分 字符 的 字符 
串 的 子 数组 〔 排 序 时 忽略 它们 的 首 字母 ) ， 一 个 含有 所 有 首 字母 大 于 切 分 字符 的 字符 串 的 子 数组 。 
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5.1.4.3 随机 化 

和 快速 排序 一 样 ， 最 好 在 排序 之 前 将 数组 打 乱 或 是 将 第 一 个 元 素 和 一 个 随机 位 置 的 元 素 交 换 以 
得 到 一 个 随机 的 切 分 元 素 。 这 么 做 主要 是 为 了 预防 数组 已 经 有 序 或 是 接近 有 序 的 最 坏 情况 。 

对 于 字符 串 类 型 的 键 ， 标 准 的 快速 排序 以 及 第 2 章 中 的 其 他 排序 方法 实际 上 都 是 高 位 优先 类 的 
字符 串 排 序 算法 , 这 是 因为 String 类 的 compareTo() 方法 是 从 左 到 右 访问 字符 串 中 的 所 有 字符 的 。 
也 就 是 说 ，compareTo() 在 首 字母 不 同时 只 会 访问 首 字母 ， 在 首 字母 相同 且 第 二 个 字母 不 同时 只 会 
访问 它们 的 前 两 个 字母 ， 等 等 。 例 如 ， 如 果 所 有 字符 串 的 首 字母 均 不 相同 ， 标 准 的 排序 算法 只 会 检 
查 这 些 首 字母 ， 这 就 自动 实现 了 一 些 我 们 希望 对 高 位 优先 的 字符 串 排序 算法 的 改进 。 三 向 字符 串 排 
序 背后 的 核心 思想 是 对 首 字母 相同 的 键 采取 特殊 的 策略 。 实 际 上 你 可 以 把 算法 5.3 看 作对 标准 快速 
排序 的 改进 ， 使 之 能 够 记录 已 知 相同 的 多 个 开头 字母 。 在 较 小 的 子 数组 中 ， 排 序 所 需 的 大 多 数 比较 
都 已 经 完成 ， 其 中 的 字符 串 很 可 能 含有 多 个 相同 的 开头 字母 。 标 准 的 方法 在 每 次 比较 时 仍然 需要 扫 
描 整 个 字符 串 ， 但 三 向 字符 串 快速 排序 则 可 以 避免 这 一 点 。 
5.1.4.4 性 能 

考虑 字符 串 键 都 很 长 的 情况 ( 简单 起 见 ， 长 度 均 相 同 ) 且 键 前 面 的 大 半 部 分 首 字母 均 相 同 。 在 
这 种 情况 下 ， 标 准 快速 排序 的 性 能 与 字符 串 的 长 度 乘 以 2WinN 成 正比 ， 而 三 向 字符 串 排序 的 运行 时 
间 则 与 Y 乘 以 字符 串 的 长 度 ( 需要 发 现 所 有 的 相同 开头 字母 ) 再 加 上 2NinN 次 比较 ( 对 剩 下 的 较 短 
部 分 进行 排序 ) 的 和 成 正比 。 也 就 是 说 ， 三 向 字符 串 快速 排序 所 需 比较 的 字符 最 多 比 普通 的 快速 排 
序 少 2InN 个 。 实 际 排序 应 用 中 处 理 的 键 和 这 个 例子 类 似 的 情况 也 并 不 少见 。 


命题 E。 要 将 含有 N 个 随机 字符 串 的 数组 排序 , 三 向 字符 六 快速 排序 平均 需要 比较 字符 ~ 2NinN 次 。 


证 明 。 我 们 可 以 用 两 种 方式 来 理解 这 个 结论 。 首 先 。 将 这 个 方法 看 作 在 快速 排序 中 用 首 字母 切 
分 并 (递归 地 ) 调用 相同 的 方法 将 子 数组 排序 ， 那 么 它 所 需 的 操作 数量 和 普通 的 快速 排序 相同 
就 一 点 也 不 奇怪 了 一 但 这 只 是 比较 单个 字符 所 需 的 操作 ， 而 非 比 较 整 个 键 所 需 的 次 数 。 其 次 ， 
可 以 将 这 个 方法 看 作用 快速 排序 代替 了 键 索引 计数 法 ， 根 据 命 十 D， 我 们 预计 的 运行 时 间 为 
NlogaN 与 2InN 的 积 , 这 是 因为 快速 排序 需要 2RlnR 步 来 将 及 个 字符 排序 , 而 对 于 相同 的 字符 串 ， 
高 位 优先 的 字符 串 排序 算法 只 需要 有 尽 步 。 这 里 就 不 给 出 完整 的 证 明了 。 


我 们 曾 在 5.3.7 节 强 调 过 ， 随 机 字符 中 模型 是 很 有 用 的 ， 但 要 预测 实际 情况 下 算法 的 性 能 还 需 
要 更 仔细 的 分 析 。 研 究 者 已 经 对 这 个 算法 进行 了 深入 的 研究 并 已 经 证 明 在 非常 一 般 的 假设 下 ， 其 他 
算法 最 多 比 三 向 字符 串 快速 排序 快 常数 级 别 ( 以 比较 的 字符 数量 衡量 ) 。 它 的 应 用 非常 广泛 ， 因 为 
三 向 字符 串 快速 排序 的 性 能 并 不 直接 取决 于 字母 表 的 大 小 。 
5.1.4.5 举例， 网 站 日 志 

作为 三 向 字符 串 快 速 排序 乱 立 鸡 群 的 一 个 示例 , 我们 来 考察 一 个 现代 系统 中 的 典型 数据 处 理 任务 。 
假设 你 架设 了 一 个 网 站 并 希望 分 析 它 产生 的 流量 。 你 可 以 从 系统 管理 员 那 里 得 到 网 站 的 所 有 活动 ,每 项 
活动 的 信息 中 都 含有 发 起 者 的 域名 。 例 如 ， 本 书 网 站 上 的 weblog txt 文件 中 包含 的 就 是 该 网 站 一 个 星期 
中 的 所 有 活动 。 为 什么 三 向 字符 串 快速 排序 能 够 有 效 处 理 这 种 文件 呢 ? 因为 排序 结果 中 许多 字符 串 都 有 
很 长 的 公共 前 组 ， 而 这 种 算法 不 会 重复 检查 它们 。 


5.1.5 ”字符 串 排序 算法 的 选择 
我 们 很 自然 会 对 这 里 的 字符 申 排序 算法 和 第 2 章 中 的 通用 排序 算法 的 对 比 感 兴趣 。 表 5.1.2 总 
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结 了 本 节 所 讨论 过 的 字符 串 排序 算法 的 重要 特征 (快速 排序 、 归 并 排序 和 三 向 快速 排序 的 数据 来 自 
第 2 章 ， 以 供 比较 ) 。 


表 5.1.2 各 种 字符 串 排序 算法 的 性 能 特点 
































在 将 基于 大 小 为 尺 的 字母 表 的 内 个 字 
符 串 排序 的 过 程 中 调用 charAt() 方法 
算 法 是 否 稳定 | 原 地 排序 | 次 数 的 增长 数量 级 平均 长 度 为 w， 最 | 。。 优势 领域 
大 长 度 为 W) 
十 
字符 下 的 插入 排序 是 是 外 家 全 束 是 局 起 有 朵 
通用 排序 算法 ， 特 别 
快速 排序 否 是 适合 用 于 空间 不 足 的 
情况 
归并 排序 是 | 天 | Mogw Ny 稳定 的 通用 排序 算法 
:向 快速 排序 在 是 “| N 到 MogN 之 间 | ”ogW | 大 最 重复 人 
低位 优先 的 字符 种 排序 | ”是 | ww 加 较 短 的 定 长 字符 串 
高 位 优先 的 字符 囊 排 序 | 是 否 | N 到 Mw 之 间 ”| NA | 陆 机 字符 
册 指 序 筑波， 特别 
向 字符 中 快速 排序 否 是 | N 到 Nw 之 间 tlogN | 适合 用 于 含有 较 长 公 
共和 

















和 第 2 章 一 样 ， 根据 具体 的 算法 和 数据 将 这 些 增长 数量 级 乘 以 适当 的 常数 就 可 以 估计 出 程序 所 
需 的 运行 时 间 。 

我 们 已 经 看 到 过 许多 示例 和 练习 中 的 许多 示例 ， 不 同 的 情况 需要 用 不 同 的 算法 和 参数 来 处 理 。 
在 专家 的 指导 下 ( 现在 也 许 就 是 你 ) ， 在 特定 的 场景 下 算法 的 性 能 也 许 能 够 得 到 大 幅度 提高 。 


图 答 帮 


问 Java 系统 的 排序 使 用 了 这 些 方法 来 处 理 String 对 象 吗 ? 

答 没有 ， 但 Java 的 标准 实现 中 的 字符 串 比较 非常 快 ， 它 使 得 标准 排序 的 性 能 与 本 节 中 讨论 的 这 些 算法 
不 相 上 下 。 

问 那么, 我 只 需要 使 用 系统 排序 来 处 理 String 类 型 的 键 就 可 以 了 吗 ? 

答 在 Java 中 可 能 是 这 样 的 。 当然 如 果 你 要 处 理 的 字符 串 非常 多 或 者 需要 一 个 极 快 的 算法 ， 就 可 能 需要 
用 char 数组 代替 String 对 象 并 使 用 基数 排序 算法 。 

问 表 5.1.2 中 的 log2N 是 怎么 回 事 ? 

答 “说 明 这 些 算法 中 的 大 多 数 比 较 都 是 在 含有 长 度 约 为 logN 的 公共 前 级 的 字符 串 之 间 进 行 的。 最 近 的 一 
些 研究 通过 详细 的 数学 分 析 也 证 明了 随机 字符 串 也 满足 这 一 性 质 ( 参见 本 书 网 站 ) 。 


图 疆 


5.1.1 实现 一 种 排序 算法 ， 首 先 统计 不 同 键 的 数量 ， 然后 使 用 一 个 符号 表 来 实现 键 索引 计数 法 并 将 数组 
排序 。 (这 种 方法 不 适用 于 不 同 键 的 数量 很 大 的 情况 ) 。 
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5.1.2 给 出 使 用 低位 优先 的 字符 串 排序 算法 处 理 下 面 这 些 键 的 轨迹 : no is th ti fo al go pe to 
co to th ai of th pa。 

5.1.3 ”给 出 使 用 高 位 优先 的 字符 串 排序 算法 处 理 下 面 这 些 键 的 轨迹 : no is th ti fo al go pe to 
co to th ai of th pa。 

5.1.4 “给 出 使 用 三 向 字符 串 快速 排序 算法 处 理 下 面 这 些 键 的 轨迹 : no is th ti fo al go pe to co 
to th ai of th pa。 

5.1.5 “给 出 使 用 高 位 优先 的 字符 串 排序 算法 处 理 下 面 这 些 键 的 轨迹 : now is the time for all good 
people to come to the aid of, 

5.1.6 ”给 出 使 用 三 向 字符 串 快速 排序 算法 处 理 下 面 这 些 键 的 轨迹 : now is the time for al1 good 
people to come to the aid of。 

5.1.7 用 一 个 Queue 对 象 的 数组 实现 键 索 引 计数 法 。 

5.1.8 对 于 一 个 含有 和 个 键 a, aa, aaa, aaaa, .… 的 文件 ， 给 出 高 位 优先 的 字符 串 排序 和 三 向 字符 串 快速 排 
序 所 检查 的 字符 数量 。 

5.1.9 ”实现 能 够 处 理 变 长 字符 串 的 低位 优先 的 字符 串 排序 算法 。 

5.1.10 ”要 将 N 个 定 长 字符 串 排序 (长 度 均 为 不 ) ， 在 最 坏 情况 下 三 向 字符 申 快速 排序 总 共 需 要 检查 多 
少 个 字符 ? 

图 提高 下 

5.1.11 队列 排序 。 按 照 以 下 方法 使 用 队列 实现 高 位 优先 的 字符 串 排序 : 为 每 个 盒子 ”设置 一 个 队列 。 在 
第 一 次 遍历 所 有 元 素 时 ， 将 每 个 元 素 根据 首 字 母 插入 到 适当 的 队列 中 。 然 后 ,将 每 个 子 列表 排序 
并 合并 所 有 队列 得 到 一 个 完整 的 排序 结果 。 注 意 ， 在 这 种 方法 中 count[] 数组 不 需要 在 递归 方 
法 内 创建 。 

5.1.12 ”字母 表 。 实 现 5.0.2 节 给 出 的 Alphabet 类 的 API 并 用 它 实现 能 够 处 理 任意 字母 表 的 低位 优先 的 
和 高 位 优先 的 字符 串 排序 算法 。 

5.1.13 ”混合 排序 。 利 用 标准 的 高 位 优先 的 字符 串 排序 的 多 向 切 分 优势 处 理 大 型 数组 ， 利 用 三 向 字符 申 快 
速 排序 能 够 避免 产 生 大 量 空子 数组 的 特点 处 理 小 型 数组 。 研 究 这 种 想法 的 可 行 性 。 

5.1.14 数组 排序 。 编 写 一 个 方法 ,使 用 三 向 字符 串 快速 排序 处 理 以 整 型 数组 作为 键 的 情况 。 

5.1.15 亚 线性 排序 。 编 写 一 个 处 理 int 值 的 排序 算法 ， 遍 历数 组 两 遍 ， 第 一 扎根 据 所 有 键 的 高 16 位 进 
行 低位 优先 的 排序 ， 第 二 遍 进 行 插入 排序 。 

5.1.16 链表 排序 。 编 写 一 个 排序 算法 ， 接 受 一 条 以 String 为 键 值 参数 的 结 点 链表 并 重新 按 顺 序 排列 所 
有 结 点 ( 返回 一 个 指向 键 值 最 小 的 结 点 的 指针 ) 。 使 用 三 向 字符 串 快速 排序 。 

5.1.17 原 地 键 索 引 计 数 法 。 实 现 一 个 仅 使 用 常数 级 别 的 额外 空间 的 键 索 引 计数 法 。 证 明 你 的 实现 是 稳 








727| 








定 的 或 者 提供 一 个 反例 。 





随机 小 数 键 。 编 写 一 个 静态 方法 randomDecima1Keys， 接 受 整 型 参数 N 和 W 并 返回 一 个 含有 N 
个 字符 串 的 数组 ， 每 个 字符 串 都 是 一 个 含有 W 位 数 的 小 数 。 


加 参见 老式 卡片 打 孔 排序 机 。 一 一 译 者 注 
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5.1.19 随机 的 加 利 福 尼 亚 州 车 牌号 。 编 写 一 个 静态 方法 randomP1atesCA， 接 受 一 个 整 型 参数 N 并 返回 
一 个 含有 N 个 字符 串 的 数组 ， 每 个 字符 串 都 是 与 本 节 的 示例 类 似 的 加 利 福 尼 亚 州 的 车 牌号 。 

5.1.20 随机 定 长 单词 。 编 写 一 个 静态 方法 randomFixedLengthWords， 接 受 整 型 参数 N 和 W 并 返回 一 
个 含有 N 个 字符 串 的 数组 ， 每 个 字符 串 都 基于 英文 字母 表 是 长 度 为 W。 

5.1.21 随机 元 素 。 写 一 个 静态 方法 randomItems ,接受 整 型 参数 N 并 返回 一 个 含有 N 个 字符 串 的 数组 ， 
每 个 字符 串 的 长 度 均 在 15 到 30 之 间 且 由 三 个 部 分 组 成 : 第 一 个 部 分 含有 4 个 字符 , 来 自 于 10 
个 固定 的 字符 串 ; 第 二 个 部 分 含有 10 个 字符 ,来 自 于 50 个 固定 的 字符 串 ; 第 三 个 部 分 含有 1 
个 字符 , 来 自 于 2 个 固定 的 字符 串 ; 第 四 个 部 分 长 15 个 字 节 ， 值 为 长 度 在 4 到 15 之 间 且 向 左 
对 齐 的 随机 字符 串 。 

5.1.22， 运 行 时 间 。 使 用 多 种 键 生成 器 比较 高 位 优先 的 字符 串 排序 与 三 向 字符 串 快速 排序 的 运行 时 间 。 
对 于 定 长 的 键 ， 在 比较 中 加 入 低位 优先 的 字符 串 排序 算法 。 

5.1.23 数组 访问 。 使 用 多 种 键 生成 器 比较 高 位 优先 的 字符 串 排序 与 三 向 字符 串 快速 排序 的 数组 访问 次 
数 。 对 于 定 长 的 键 ， 在 比较 中 加 入 低位 优先 的 字符 串 排序 算法 。 

5.1.24 被 访问 的 最 靠 右 的 字符 。 使 用 多 种 键 生成 器 比较 高 位 优先 的 字符 串 排序 与 三 向 字符 趾 快速 排序 
能 够 访问 到 的 最 靠 右 的 字符 的 位 置 。 ” -- 728 
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5.2 单词 查找 树 


和 排序 一 样 , 我 们 也 可 以 利用 字符 串 的 性 质 开 发 比 第 3 章 中 介绍 的 通用 算法 更 有 效 的 查找 算法 ， 
以 便 用 于 以 字符 串 作为 被 查找 的 键 的 一 般 应 用 程序 。 

具体 来 说 ， 本 节 中 所 讨论 的 算法 在 一 般 应 用 场景 中 ( 甚至 对 于 巨型 的 符号 表 ) 都 能 够 取得 以 下 
性 能 : 

口 查找 命中 所 需 的 时 间 与 被 查找 的 键 的 长 度 成 正比 ; 

口 查找 未 命中 只 需 检查 若干 个 字符 。 

仔细 思考 过 后 你 会 发 现 ， 这 样 的 性 能 是 相当 惊人 的 。 它 们 是 算法 研究 的 最 高 成 就 之 一 ， 也 是 建 
成 现今 能 够 便捷 、 快 速 地 访问 海量 信息 所 依赖 的 基础 设施 的 重要 因素 。 更 重要 的 是 ,我 们 可 以 扩展 
符号 表 的 API， 添 加 基于 字符 的 用 于 处 理 字符 串 类 型 的 键 的 操作 (但 不 必 为 所 有 Comparable 类 型 
的 键 都 添加 类 似 操作 ) 。 它 们 在 实际 应 用 中 非常 强大 并 实用 ， 如 表 5.2.1 所 示 。 


表 5.2.1 以 字符 串 为 键 的 符号 表 的 API 


public class StringST<Valuey 
StringSsTO) 创建 一 个 符号 表 





void put(String key，Value val) ”向 表 中 插入 键 值 对 (如果 值 为 nu11 则 删除 键 key ) 
Value get(String key) 键 key 所 对 应 的 值 如 果 键 不 存在 则 返回 nu11 ) 
void delete(String key) 删除 键 key ( 和 它 的 值 ) 
boolean contains(String key) 表 中 是 否 保 存 着 key 的 值 
boolean isEnmptyO 符号 表 是 否 为 空 
String longestPrefixOf(String s) s 的 前 级 中 最 长 的 键 
Tterable<String> keysWithprefix(String s) 所 有 以 s 为 前 级 的 键 
Tterable<String> keysThatMatch(String s) 所 有 和 s 匹配 的 键 ( 其 中 “.” 能 够 匹配 任意 字符 ) 
int size() 键 值 对 的 数量 
Iterable<String> keysG) - 符号 表 中 的 所 有 键 


这 份 API 与 第 3 章 中 所 介绍 的 符号 表 API 有 以 下 不 同 : 
口 将 泛 型 的 Key 的 类 型 换 成 了 具体 的 类 型 String; 
， 口 添加 了 3 个 方法 : longestPrefi xOf() 、 keysWithprefix() 和 keysThatMatch(); es 
本 节 仍 然 遵 守 第 3 章 中 实现 符号 表 时 的 几 个 基本 约定 ( 不 接受 重复 键 或 空 键 ， 值 不 能 为 空 ) 。 
从 对 字符 串 的 排序 算法 中 可 以 看 到 ， 指 定 字符 串 的 字母 表 常常 是 十 分 重要 的 。 对 小 型 字母 表 的 简 
单 而 高 效 的 实现 不 适用 于 大 型 字母 表 ， 这 是 因为 后 者 消耗 的 空间 太 多 。 在 这 种 情况 下 ， 应 该 添加 一 个 
构造 函数 ， 允 许 用 例 指定 所 使 用 的 字母 表 。 我 们 会 在 本 节 稍 后 讨论 这 个 构造 函数 的 实现 ， 但 目前 暂时 
没有 在 API 中 列 出 它 ， 因 为 要 将 精力 集中 在 字符 串 类 型 的 键 上 。 
下 面 我 们 用 she sells sea shells by the sea shore 这 几 个 键 作为 示例 描述 以 下 3 个 新 
方法 。 
口 longestPrefix0f() 接受 一 个 字符 串 参数 并 返回 符号 表 中 该 字符 串 的 前 缀 中 最 长 的 键 。 对 
于 以 上 所 有 键 ，longestprefixOf("she11") 用 苦果 生 she, longestPrefixOf("shel- 
1sort") 的 结果 是 she11s。 
口 keysWithPrefix() 接受 一 个 字符 串 参数 并 返回 符号 表 中 所 有 以 该 字符 串 作为 前 缀 的 键 。 对 
于 以 上 所 有 键 ,keysWithPrefix("she") 的 结果 是 she 和 she11s,keysWithPrefix ("se") 
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的 结果 是 se11s 和 sea。 
口 keysThatMatch() 接受 一 个 字符 串 参数 并 返回 符号 表 中 所 有 和 该 字符 串 匹配 的 键 ， 其 中 参 
数字 符 串 中 的 点 (“.”) 可 以 匹配 任何 字符 。 对 于 以 上 所 有 键 ，keysThatMatch(" .he 
的 结果 是 she 和 the，keysThatMatchC"s..") 的 结果 是 she 和 sea。 
在 见 过 这 些 基本 的 符号 表 方法 后 ,我 们 将 详细 讨论 这 些 操作 的 的 实现 和 应 用 。 这 些 特别 的 操作 
是 字符 串 类 型 的 键 所 可 能 进行 的 操作 中 的 代表 操作 ， 我 们 将 会 在 练习 中 讨论 其 他 可 能 的 操作 。 
为 了 突出 中 心思 想 ， 本 节 的 重点 是 put()、get() 和 新 增 的 几 个 方法 ; (和 第 3 章 一 样 ) 使 用 
了 contains() 和 isEmpty() 的 默认 实现 ， 并 将 size() 和 deleteC) 的 实现 留 作 练习 。 因 为 字符 
串 都 是 Comparab1e 的 ， 所 以 可 以 在 API 中 包含 第 3 章 有 序 符号 表 API 中 的 各 种 有 序 性 操作 ( 非常 
值得 这 样 做 )。 我 们 将 它们 的 实现 ( 大 多 都 很 简单 ) 留 作 练习 并 放 在 了 本 书 的 网 站 上 。 


5.2.1， 单词 查找 树 

本 节 中 ， 我 们 要 学 习 一 种 叫做 单词 查 拒 树 的 数据 结构 。 它 由 字符 中 刍 中 的 所 有 字符 构造 而 成 ， 
允许 使 用 被 查找 键 中 的 字符 进行 查找 。 它 的 英文 单词 ie 来自 于 E.Fredkin 在 1960 年 玩 的 一 个 文字 
游戏， 因为 这 个 数据 结构 的 作用 是 取出 (retrieval ) 数据 ， 但 发 音 为 try 是 为 了 避免 与 tree 相 混淆 。 


-我 们 首先 会 描述 单词 查找 树 的 基本 性 质 ， 包括 查找 和 搬 人 算法 ， 然后 详细 学 习 它 的 数据 表示 方法 和 ; 


Java 实现 。 
5.2.1.1 基本 性 质 

和 各 种 查找 树 一 样 ， 单词 查 找 树 也 是 由 甸 
接 的 结 点 所 组 成 的 数据 结构 ， 这 些 链接 可 能 为 
空 ， 也 可 能 指向 其 他 结 点 。 每 个 结 点 都 只 可 能 


该 链接 所 指向 的 子 
单词 查找 树 包含 所 
有 以 s 开 头 的 刍 








有 一 个 指向 它 的 结 点 ， 称 为 它 的 父 结 点 ( 只 有 OB 

一 个 结 点 除外 ， 即 根 结 点 ， 没 有 任何 结 点 指向 有 以 she 开 头 的 忽 
@ wwAO 

祖 结 点 ) 。 每 个 结 点 都 含有 有 条 链接 ， 其 中 有 丰富 放 人 


为 字母 表 的 大 小 。 单 词 查找 树 一 般 都 含有 大 量 5 字符 所 对 应 的 二 点 中 


的 空 链接 ， 因 此 在 绘制 一 棵 单词 查找 树 时 一 般 筷 “全 
会 忽略 空 链接 。 尽 管 链接 指向 的 是 结 点 ， 但 是 sea 2 
也 可 以 看 作 链接 指向 的 是 另 一 棵 单词 查找 树 ,joyininiaow8 反 a “sh 3 
它 的 根 结 点 就 是 被 指向 的 结 点 。 每 条 链接 都 对 所 对 应 的 字符 标记 结 点 a ys . 
应 着 一 个 字符 一 因为 每 条 链接 都 只 能 指向 一 ， 
个 结 点 ， 所 以 可 以 用 链接 所 对 应 的 字符 标记 补 图 52.1 单词 查找 树 详解 


指向 的 结 点 ( 根 结 点 除外 ， 因 为 没有 链接 指向 
它 ) 。 每 个 结 点 也 含有 一 个 相应 的 值 ， 可 以 是 空 也 可 以 是 符号 表 中 的 某 个 键 所 关联 的 值 。 具 体 来 说 ， 
我 们 将 每 个 键 所 关联 的 值 保存 在 该 键 的 最 后 一 个 字母 所 对 应 的 结 点 中 。 我 们 应 该 记 住 非常 重要 的 一 
点 : 值 为 空 的 结 点 在 符号 表 中 没有 对 应 的 键 ， 它 们 的 存在 是 为 了 简化 单词 查找 树 中 的 查找 操作 。 一 
棵 单词 查找 树 的 例子 如 图 5.2.1 所 示 。 
5.2.1.2 单词 查找 树 中 的 查找 操作 

在 单词 查找 树 中 查找 给 定 字符 串 键 所 对 应 的 值 是 一 个 很 简单 的 过 程 ， 它 是 以 被 查找 的 键 中 的 字 
符 为 导向 的 。 单 词 查 找 树 中 的 每 个 结 点 都 包含 了 下 一 个 可 能 出 现 的 所 有 字符 的 链接 。 从 根 结 点 开始 ， 
首先 经 过 的 是 键 的 首 字母 所 对 应 的 链接 ; 在 下 一 个 结 点 中 沿 着 第 二 个 字符 所 对 应 的 链接 继续 前 进 ; 
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在 第 二 个 结 点 中 沿 着 第 三 个 字符 所 对 应 的 链接 向 前 ， 如 此 这 般 直 到 到 达 键 的 最 后 一 个 字母 所 指向 的 
结 点 或 是 遇 到 了 一 条 空 链接 。 这 时 可 能 会 出 现 以 下 3 种 情况 ( 示例 请 见 图 5.2.2) 。 
口 键 的 尾 字 符 所 对 应 的 结 点 中 的 值 非 空 ( 如 图 5.2.2 中 查找 she11s 和 she 的 示例 ) 。 这 是 一 
次 命中 的 查找 一 一 键 所 对 应 的 值 就 是 键 的 尾 字 符 所 对 应 的 结 点 中 保存 的 值 。 
口 键 的 尾 字符 所 对 应 的 结 点 中 的 值 为 空 ( 如 图 5.2.2 中 查找 she11 的 示例 ) 。 这 是 一 次 未 命中 
的 查找 一 一 符号 表 中 不 存在 被 查找 的 键 。 
口 查找 结束 于 一 条 空 链接 ( 如 图 5.2.2 中 查找 shore 的 示例 ) 。 这 也 是 一 次 未 命中 的 查找 。 


命中 的 查找 未 命中 的 查找 
get("shells") O get(C shel1 
从 l 
T 
| 
四 OO 
9) (© 
(QO) QD 
0) 0) 
3 
返回 键 的 尾 字符 对 应 的 键 的 尾 字符 对 应 的 结 点 中 
结 点 中 所 保存 的 值 所 保存 的 值 为 空 ， 返 回 空 
get("she") get("shore") 
查找 可 能 终止 ”一 
卫生 人 1 没有 与 o 对 应 的 
| 链接， 返回 空 


图 5.2.2 单词 查找 树 的 查找 示例 


在 所 有 的 情况 中 ,执行 查找 的 方式 就 是 在 单词 查找 树 中 从 根 结 点 开始 检查 某 条 路 径 上 的 所 有 结 点 。 
5.2.1.3 ”单词 查找 树 中 的 插入 操作 
和 二 叉 查 找 树 一 样 ， 在 插入 之 前 要 进行 一 次 查找 : 在 单词 查找 树 中 意味 着 沿 着 被 查找 的 键 的 
所 有 字符 到 达 树 中 表示 尾 字符 的 结 点 或 者 一 个 空 链接 。 此 时 可 能 会 出 现 以 下 两 种 情况 。 
口 在 到 达 键 的 尾 字符 之 前 就 遇 到 了 一 个 空 链接 。 在 这 种 情况 下 ,字符 查找 树 中 不 存在 与 键 的 尾 
字符 对 应 的 结 点 ， 因 此 需要 为 键 中 还 未 被 检查 的 每 个 字符 创建 一 个 对 应 的 结 点 并 将 键 的 值 保 
存 到 最 后 一 个 字符 的 结 点 中 。 
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口 在 遇 到 空 链接 之 前 就 到 达 了 键 的 尾 字符 。 在 这 种 情况 下 ， 和 关联 性 数组 一 样 ， 将 该 结 点 的 值 
设 为 键 所 对 应 的 值 (无 论 该 值 是 否 为 空 ) 。 
在 所 有 情况 下 ， 我 们 都 会 检查 键 中 的 每 个 字符 并 为 它们 在 树 中 创建 一 个 对 应 的 结 点 。 在 使 用 第 
3 章 中 的 标准 索引 用 例 处 理 输入 she se11s sea she11s by the sea shore 时 所 构造 的 单词 查找 
树 如 图 5.2.3 所 示 。 


= 键 。 什 键 “ 什 > 
she 0 Se = by :4 
键 的 值 存在 于 尾 字 4. 志 
AT 母 所 对 应 的 结 点 中 LA 
sells 1 © 
(5) 
本 ©® . the 5 
键 的 每 个 字母 都 一) 
对 应 着 一 个 结 点 ” 人 
G1 ns 
sea 2 | 
sea 6 1 
键 就 是 由 从 根 结 点 
、 到 什 所 在 的 结 点 的 AAA - B 9 
一 系列 字符 组 成 的 @ WD 
s # a 
shels 3 ©O ”和 二 的 必 字 答对 /站 人 
. 应 的 结 点 存在 ， 
Ge 重 置 它 的 值 
四 
© ~ shore 7 Ki 
中 2 
@. = 
和 键 的 未 尾 部 分 字符 对 ©3 
应 的 结 点 不 存在， 因 比 
需要 创建 这 些 结 点 并 将 ee 1 © 
值 保存 在 最 后 一 个 结 点 中 ©7 


图 52.3 ”标准 索引 用 例 中 单词 查找 树 的 构造 娄 迹 
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5.2.1.4 ” 结 点 的 表示 

在 本 节 开头 提 到 过 , 我 们 为 单词 查找 树 所 绘 出 的 图 像 和 在 程序 中 构造 的 数据 结构 并 不 完全 一 致 ， 
因为 我 们 没有 画 出 空 链接 。 将 空 链接 考虑 进来 将 会 突出 单词 查找 树 的 以 下 重要 性 质 : 

口 每 个 结 点 都 含有 R 个 链接 ， 对 应 着 每 个 可 能 出 现 的 字符 ; 

口 字符 和 键 均 隐 式 地 保存 在 数据 结构 中 。 

例如 ， 在 图 5.2.4 中 的 单词 查找 树 中 ， 所 有 的 键 均 由 小 写字 母 组 成 ， 每 个 结 点 都 含有 一 个 值 和 
26 个 链接 。 第 一 条 链接 指向 的 子 单词 查找 树 中 的 所 有 键 的 首 字 母 都 是 uw 第 二 By a 
太夫 机 中 的 所 有 刍 的 首 字母 部 是 b， 等 等 。 2 






链接 的 索引 隐 式 地 






















每 个 结 点 都 含有 一 
个 链接 数组 和 一 个 值 
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在 单词 查找 树 中 ， 键 是 由 从 根 结 点 到 含有 非 空 值 的 结 点 的 路 径 所 隐 式 表示 的 。 例 如 ， 在 单词 查 
找 树 中 ， 字 符 串 sea 所 关联 的 值 是 2， 因 为 根 结 点 中 的 第 19 条 链接 ( 指向 由 所 有 以 s 开头 的 键 组 
.成 的 子 单词 查找 树 ) 非 空 ， 下 一 个 结 点 中 的 第 5 条 链接 ( 指向 由 所 有 以 se 开头 的 键 组 成 的 子 单词 
.一 “查找 树 ) 非 空 ， 第 三 个 结 点 中 的 第 1 条 链接 . ( 指向 由 所 有 以 sea 开头 的 键 组 成 的 子 单词 查找 树 ) 的 . - 
值 为 2。 数据 结构 既 没 有 保存 字符 串 sea 也 没有 保存 字符 s、e 和 a。 事 实 上 ， 数 据 结构 不 会 存储 任 
何 字符 串 或 字符 ， 它 保存 了 链接 数组 和 值 。 因 为 参数 R 的 作用 的 重要 性 ， 所 以 将 基于 含有 及 个 字符 
的 字母 表 的 单词 查找 树 称 为 R 向 单词 查找 树 。 
有 了 这 些 预备 知识 之 后 ， 算 法 5.4 实现 的 符号 表 TrieST 就 很 容易 理解 了 。 它 也 使 用 了 类 似 于 
第 3 章 介 绍 的 查找 树 使 用 的 递归 方法 。 它 的 私有 Node 类 用 实例 变量 val 保存 键 相 关联 的 值 并 用 
数组 next[] 保存 所 有 指向 其 他 Node 对 象 的 引用 。 这 5 
些 递 归 方法 的 实现 非常 简洁 ， 值 得 仔细 研究 。 下 面 ， { return size(root); } 
.。 我 们 将 讨论 接受 一 个 Alphabet 对 象 作为 参数 的 构造 。 ”private int size(Node x) 
函数 和 size()、keys()、longestPrefix0f()、 { 
keysWwithPprefix()、 keysThatMatch() 和 





if (x == nul1) return 0; 
int cnt = 0; 


delete0 方法 的 实现 。 理 解 这 些 递归 方法 也 并 不 轩 对 Cn AD cnt 
难 ， 只 是 每 个 方法 都 会 比 前 一 个 稍 加 复杂 。 了 for (char c = 0; Cc < Ri c++) 
5.2.1.5 大 小 cnt += size(next[c]); 

和 第 3 章 中 的 二 又 查找 树 一 样 ，sizeO 方法 的 实 } et 
现 有 以 下 3 种 显而易见 的 选择 。 


口 即时 实现 : 用 一 个 实例 变量 N 保存 键 的 数量 。 单词 查找 树 的 延 时 递归 方法 sizeC) - 
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口 更 加 即时 的 实现 : 用 结 点 的 实例 变量 保存 子 单 词 查 找 树 中 键 的 数量 ， 在 递归 的 put() 和 
delete() 方法 调用 之 后 更 新 它们 。 
口 延 时 递归 实现 : 如 上 页 框 注 “单词 查找 树 的 延 时 递归 方法 size()” 所 示 。 它 会 遍历 单词 查 
找 树 中 的 所 有 结 点 并 记录 非 空 值 结 点 的 总 数 。 
和 二 又 查找 树 一 样 ， 延 时 实现 很 有 指导 意义 但 是 应 该 尽量 避免 ， 因 为 它 会 给 用 例 造成 性 能 上 的 
问题 。 我 们 会 在 练习 中 讨论 它 的 即时 实现 。 736 


算法 5.4 基于 单词 查找 树 的 符号 表 


public class TrieST<Value> 


{ 

















private static int R = 256; // 基教 
private Node root; // 单词 查找 树 的 根 结 点 


private static class Node 
» 

private Object val; 

private Node[] next = new Node[R]; 
} 


public Value get(String key) 

{ 
Node x = get(root, key, 0); 
if (x == nu11) return null; 
return (Value) x.val; 

} 


private Node get(Node x, String key, int d) 
长 // 返回 以 x 作为 根 结 点 的 子 单 词 查找 树 中 与 key 相 关联 的 值 
if (x == nu11) return null; 
if (d == key.length()) return x; 
Char c = key.charAt(d); // 找到 革 d 个 字符 所 对 应 的 于 单词 查找 树 
return get(x.next[c], key, d+1); 
x 


public void put(String key, Value val) 
{ root = put(root, key, val, 0); } 


private Node put(Node x, String key, Value val, int d) 

长 // 如 果 kKey 存 在 于 以 X 为 根 结 点 的 子 单词 查找 树 中 则 更 新 与 它 相关 联 的 值 
if (x == nul1) x = new Node(); 
if (d == key.lengthO) { x.val = val; return x; } 
Char c = key.charAt(d); // 找到 第 d 个 字符 所 对 应 的 于 单词 查找 树 
x.next[c] = put(x.next[c], key, val, d+1); 
return x; 

了 


这 份 代码 使 用 尺 向 单词 查找 树 实现 了 符号 表 。 我 们 会 在 下 面 的 几 页 中 讨论 表 5.2.1 中 字符 申 符号 
表 API 中 新 增 的 方法 。 我 们 很 容易 通过 修改 这 段 代 码 来 处 理 特殊 字母 表 中 的 键 (请 见 5.2.1.8 节 ) 。 因 


为 Java 不 支持 泛 型 数组 ， 所 以 Node 中 的 值 的 类 型 必须 是 Object， 可 以 在 get() 中 将 值 的 类 型 转换 为 
Value。 737] 
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5.2.1.6 ”查找 所 有 键 

因为 字符 和 键 是 被 隐 式 地 表示 在 单词 查找 树 中 ， 所 以 使 用 例 能 够 遍历 符号 表 的 所 有 键 就 变 得 有 
些 困难 。 在 二 叉 查找 树 中 ,我 们 将 所 有 字符 串 键 保存 在 一 个 队列 (Queue ) 里 。 但 对 于 单词 查找 树 ， 
不 仅 要 能 够 在 数据 结构 中 找到 这 些 键 ， 还 需要 显 式 地 表示 它们 。 我 们 用 一 个 类 似 于 sizeQ 的 私有 
递归 方法 collectQ 来 完成 这 个 任务 ， 它 维护 了 一 个 字符 串 用 来 保存 从 根 结 点 出 发 的 路 径 上 的 一 
系列 字符 。 每 当 我 们 在 -co1lectO 调用 中 访问 一 个 结 点 时 ， 方 法 的 第 一 个 参数 就 是 该 结 点 ,第 二 
个 参数 则 是 和 该 结 点 相关 联 的 字符 串 ( 从 根 结 点 到 该 结 点 的 路 径 上 的 所 有 字符 ) 。 在 访问 一 个 结 点 
时 ， 如 果 它 的 值 非 空 ， 我 们 就 将 和 它 相 关联 的 字符 串 加 入 队列 之 中 ， 然 后 ( 递归 地 ) 访问 它 的 链接 
数组 所 指向 的 所 有 可 能 的 字符 结 点 。 在 每 次 调用 之 前 ， 都 将 链接 对 应 的 字符 附加 到 当前 键 的 末尾 作 
为 调用 的 参数 键 。 用 这 个 collect0 方法 为 API 中 的 keys() 和 keysWithPrefix() 方法 收集 符 
号 表 中 所 有 的 键 。 要 实现 keysQ 〇 方法 ， 可 以 以 空 字符 串 作 为 参数 调用 keysWithPrefix() 方法 。 
要 实现 keysWithPrefix() 方法 ， 可 以 先 调用 get() 找 出 给 定 前 统 所 对 应 的 单词 查找 树 ( 如 果 不 
存在 则 返回 nu11 ) ， 再 使 用 collect0 方法 完成 任务 。 图 5.2.5 显示 了 collect() 方法 (或 者 说 
keyswithPrefix("") 调用 ) 在 一 棵 单词 查找 树 中 的 轨迹 ， 它 给 出 了 每 次 调用 co11ect() 方法 时 第 
二 个 参数 的 值 和 队列 的 内 容 。 图 5.2.6 显示 了 keysWithPrefix("sh") 的 运行 过 程 。 





public Iterable<String> keysO keyswithprefixC""); 
{ return keyswithprefix(""); } 健 9 
public Iterable<String> b 
keyswWithPrefix(String pre) by by 
{ 
Queue<String> q = new Queue<String>(); ses 1 sea 
collect(get(root, pre, 0), pre, q); sel 
return q; sell 
i sells 
s 
private void collect(Node x, String pre, he 
she 
ee he's shells 
if x = mulD) returni se 
if (x.val != nul1) q.enqueue(pre); shore shore 
for (char c = 0; ¢ <R; c++) 
collect(x.next[c], pre + c, q); Ah 
久 the the 
收集 一 棵 单词 查找 树 中 的 所 有 键 图 5.2.5 “收集 一 棵 单词 查找 树 中 的 所 有 键 的 轨迹 
keyswithprefix("sh"); 
键 9 
sh 
Sh she 
she 
全 Rs sheshen 
> shells shells 
J G WY ho 
I shor 
找 出 和 所 有 以 "sh" 9 中 shore 11s shore 
i QD) 人 7 收集 该 子 单词 查 
©3 找 树 中 的 所 有 键 


图 5.2.6 单词 查找 树 中 的 前 级 匹配 
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5.2.1.7 ”通配符 匹配 

我 们 可 以 用 一 个 类 似 的 过 程 实现 keysThatMatch() ， 但 需要 为 co11ect() 方法 添加 一 个 参数 
来 指定 匹配 的 模式 。 如 果 模式 中 含有 通配符 ， 就 需要 用 递归 调用 处 理 所 有 的 链接 ， 否 则 就 只 需要 处 
理 模式 中 指定 字符 的 链接 即 可 ， 如 下 方 的 框 注 所 示 。 你 还 可 以 注意 到 ， 这 里 不 需要 考虑 长 度 超过 模 
式 字符 串 的 键 。 


public Iterable<String> keysThatMatch(String pat) 





{ 
Queue<String> q = new Queue<String>O; 
collect(root, 
return q; 
} 
public void collect(Node x, String pre, String pat, Queue<String> q) 
{ 


int d = pre.length(); 
if (x == nul1) return; 

if (d == pat.length() && x.val != nul1) q.enqueue(pre); 
if (d == pat.length()) return; 


char next = pat.charAt(d); 
for (char c = 0; c <R; c++) 
if (next == '.' || next 一 c) 
collect(x.next[c], pre + ¢, pat, q); 





单词 查找 树 中 的 通配符 匹配 


5.2.1.8 ”最 长 前 缀 

为 了 找到 给 定 字 符 串 的 最 长 键 前 级 ， 就 需要 使 用 一 个 类 似 于 getQ 的 递归 方法 。 它 会 记录 查找 
路 径 上 所 找到 的 最 长 键 的 长 度 ( 将 它 作 为 递归 方法 的 参数 在 过 到 值 非 空 的 结 点 时 更 新 它 ) 。 查 找 会 
在 被 查找 的 字符 串 结束 或 是 过 到 空 链接 时 终止 ， 请 见 图 5.2.7。 


public String longestprefixOf(String s) 
{ 
int length = search(root, s, 0, 0); 
return s.substring(0, length); 
} 


private int search(Node x, String s, int d, int length) 
{ 

if (x == nu11) return length; 

if (x.val 1= nul1) length = di 

if (d == s.length()) return length; 

char c = s.charAt(d); 

return search(x.next[c], s, d+1, length); 


对 给 定 字符 串 的 最 长 前 缀 进行 匹配 
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5.2.1.9 ”删除 操作 2 "she” O 
从 一 棵 单词 查找 树 中 删 去 一 个 键 值 对 的 第 一 步 是 ， 找 到 键 
所 对 应 的 结 点 并 将 它 的 值 设 为 空 (nu11) 。 如 果 该 结 点 含有 一 ;0) 
个 非 空 的 链接 指向 某 个 子 结 点 ， 那 么 就 不 需要 在 进行 其 他 操作 人 @o 
了 。 如 果 它 的 所 有 链接 均 为 空 ， 那 就 需要 从 数据 结构 中 删 去 这 被 查找 的 字符 


申 : 上 
个 铺 点 。 如 果 删 去 它 使 得 它 的 从 结 点 的 所 有 链接 也 均 为 空 ， 就 的 从 下。 
需要 继续 删除 它 的 父 结 点 ， 依 此 类 推 。 如 下 面 框 注 中 的 实现 所 0 


示 ， 根 据 标准 递归 流程 ， 这 项 操作 所 需 的 代码 极 少 : 在 递归 删 。 
除了 某 个 结 点 x 之 后 ， 如 果 该 结 点 的 值 和 所 有 的 链接 均 为 空 则 “shen 
返回 nu11， 否 则 返回 x， 请 见 图 5.2.8。 R G) 


public void delete(String key) (0 pi 


{ root = delete(root, key, 0); } 
private Node delete(Node x, String key, int d) 
* 


if (x == nul1) return null; 
if (d -= key.length()) 
x.val = null; "shellsort" 
else 
{ 
char c = key.charAt(d); 
x.next[c] = delete(x.next[c], key, d+1); 





OO 


} th) 
if (x.val 1= null) return xi 0 
for (char c = 0; c < Ri c++) 中 查找 在 空 链接 
if (x.next[c] != nu11) return x; q) 处 结束 ， 返 回 
return null; © "shells" 
} 一 (路 径 上 最 近 
的 一 个 键 ) 


从 单词 查找 树 中 刷 除 一 个 键 (和 它 相关 联 的 值 ) 


5.2.1.10 ”字母 表 
和 以 前 一 样 , 算法 54 处 理 的 是 Java 的 String 类 型 的 键 ， 
但 将 它 修改 为 处 理由 任意 字母 表 得 到 的 键 也 很 容易 。 
口 实现 一 个 构造 函数 , 接受 一 个 Alphabet 对 象 作为 参数 ， 
-将 一 个 Alphabet 类 型 的 实例 变量 设 为 该 参数 的 值 并 
， 将 实例 变量 R 的 值 设 为 字母 表 中 字母 的 个 数 。 
口 在 get() 和 put() 中 使 用 Alphabet 类 的 toIndexC) 
方法 ,将 字符 串 中 的 字符 转化 为 0 到 R-1 之 间 的 索引 值 。 
口 使 用 Alphabet 类 的 tocharQ 方法 ， 将 0 到 R_1 之 间 的 eM 
索引 值 转化 为 字符 型 ( char ) 的 值 。getO 和 putO 方法 
不 需要 进行 此 操作 ,但 它 在 keys 〇 、keysWithPrefixO ee 
。” ”和 keysThatMatch0 方法 的 实现 中 很 重要 。 
经 过 这 些 修改 ， 如 果 已 知 所 有 键 仅 来 自 于 一 个 小 型 的 字母 表 ， 那 可 以 节省 相当 大 的 空间 (在 每 个 
结 点 中 仅 使 用 RR 条 链接 ) ， 代 价 是 字母 和 索引 相互 转化 所 需要 的 时 间 。 


"shelters" 





ee 2 5.2 单词 查找 树 号 


delete("shells"); 








©o 
和 
乡 非 空 值 ， 不 能 副 去 结 点 非 空 链接 
(返回 指向 结 点 的 链接 ) 
WU 出 去 


结 点 (返回 一 个 空 链接 ) 


图 5.2.8 ”从 单词 查找 树 中 删除 一 个 键 (和 它 相 关联 的 值 ) 
框 注 “ 从 单词 查找 树 中 删除 一 个 键 (和 它 相 关联 的 值 ) ”就 是 字符 串 符号 表 API 的 一 个 简洁 而 
完整 的 实现 ， 它 适用 于 各 种 实际 应 用 场景 。 本 节 的 练习 讨论 了 它 的 几 种 变化 和 扩展 。 下 面 我 们 要 讨 
论 单词 查找 树 的 基本 性 质 和 限制 条 件 。 


5.2.2 单词 查找 树 的 性 质 


和 以 前 一 样 ， 我 们 希望 知道 在 一 般 的 应 用 程序 中 使 用 单词 查找 树 所 需要 的 时 间 和 空间 。 单 词 查 
找 树 已 经 被 分 析 和 研究 得 很 透彻 了 ， 它 的 基本 性 质 也 比较 容易 理解 和 应 用 。 


命题 F。 单 词 查找 树 的 链表 结构 ( 形状 ) 和 键 的 插入 或 删除 顺序 无 关 : 对 于 任意 给 定 的 一 组 刍 ， 
其 单词 查找 树 都 是 唯一 的 。 


证 明 。 由 数学 归 负 法 很 容易 通过 子 单词 查找 树 证 明 这 个 结论 。 


这 个 基本 的 结论 是 单词 查找 树 的 一 个 特殊 性 质 : 我 们 目前 已 经 学 过 的 所 有 其 他 结构 的 查找 树 的 
构造 都 不 仅 和 键 的 集合 有 关 ， 而 且 还 取决 于 这 些 键 的 插入 顺序 。 
， 5.2.2.1 最 坏 情况 下 查找 和 插入 操作 的 时 间 界限 - 
在 单词 查找 树 中 找到 给 定 键 的 值 要 花 多 长 时 间 ? 对 于 二 叉 查 找 树 、 散 列表 和 第 3 章 中 所 介绍 的 
其 他 算法 ， 都 需要 使 用 数学 分 析 来 回答 这 个 问题 : 但 是 对 于 单词 查找 树 ， 这 个 问题 很 简单 。 


命题 G。 在 单词 查找 树 中 查找 一 个 键 或 是 插入 一 个 键 时 ， 访问 数组 的 次 数 最 多 的 键 的 长 度 加 1。 


证 明 。 由 代码 可 知 ，put() 和 get() 方法 的 递归 实现 都 带 有 一 个 参数 d。 它 的 初始 值 为 0,， 每 
对 都 会 加 1， 当 长 度 等 于 键 的 长 度 时 递归 调用 停止 。 





从 理论 角度 来 说 ,命题 G 意味 着 单词 查找 树 对 于 命中 的 查找 是 最 理想 的 一 我 们 不 能 奢望 查找 
所 需 的 时 间 比 与 被 查找 的 键 的 长 度 成 正比 更 好 无 论 使 用 的 是 什么 算法 和 数据 结构 ， 在 检查 完 要 查 
找 的 键 中 的 所 有 字符 之 前 都 是 无 法 判断 是 否 已 找到 该 键 。 从 实际 角度 来 说 ， 这 个 保证 也 很 重要 ， 因 
为 它 和 符号 表 中 键 的 数量 无 关 : 当 我 们 在 处 理 类 似 于 车 牌号 码 的 7 个 字符 的 键 时 ， 可 以 知道 查找 或 
插入 操作 最 多 只 需要 检查 8 个 结 点 ， 当 我 们 在 处 理 20 个 字符 的 数字 账号 时 ， 最 多 只 需要 检查 21 个 
结 点 就 可 以 完成 查找 或 插入 操作 。 
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5.2.2.2 ”查找 未 命中 的 预期 时 间 界 限 

假设 我 们 正在 单词 查找 树 中 查找 一 个 键 ， 发 现 根 结 点 中 与 被 查找 键 的 第 一 个 字符 所 对 应 的 链接 
为 室 。 此 时 只 检查 了 一 个 结 点 就 知道 了 该 键 不 存在 于 表 中 。 这 种 情况 是 很 常见 的 : 单词 查找 树 的 最 
重要 的 性 质 之 一 就 是 未 命中 的 查找 一 般 都 只 需要 检查 很 少 的 几 个 结 点 。 如 果 假 设 键 都 来 自 于 随机 字 
符 串 模型 (R 中 的 所 有 不 同 字 符 出 现 的 几率 均 相 同 ) ， 可 以 证 明 以 下 结论 。 


命题 H。 字 母 表 的 大 小 为 R， 在 一 棵 由 个 随机 键 构 造 的 单词 查找 树 中 ， 未 命中 查找 平均 所 需 
检查 的 结 点 数量 为 ~iognN。 
简略 证 明 ( 写 给 熟悉 概率 分 析 的 读者 ) 。 所 有 的 N 个 键 都 与 一 个 随机 的 查找 键 的 前 ?个 字符 中 
至 少 有 一 个 字符 不 同 的 概率 为 (1-R-)*。 用 1 减 去 它 即 可 得 到 单词 查找 树 中 至 少 有 一 个 键 和 被 查 
找 键 的 前 1 个 字符 都 相 匹配 的 概率 。 也 就 是 说 ，1-(1-R 人 的 查找 操作 至 少 需要 比较 7 个 字符 的 
概率 。 在 概率 分 析 中 ， 对 于 =0,1.2…， 一 个 整数 随机 变量 大 于 1 的 概率 之 和 就 是 该 随机 变量 的 
平均 值 。 因 此 ， 查 找 的 平均 成 本 为 : 
1-(1-R ++-R HI-(1-ROA 

根据 基本 的 近似 公式 (1-1/xJ~e'， 查 找 的 平均 成 本 的 近似 函数 为 : 

1-(I- EM HA eR tH ENR hee 
当 丸 远 小 于 N 时， 相对 应 的 约 nsN 项 的 值 非常 接近 于 1; 当 R' 远 大 于 入 时 ， 所 对 应 的 所 有 的 
项 的 值 均 极 为 接近 于 0; 当 尺 = 人 时 ， 所 对 应 的 项 不 多 且 它们 的 值 均 在 0 和 1 之 间 。 因 此 ， 它 
的 总 和 约 为 logaN。 


从 实际 角度 来 说 , 该 命题 说 明 的 最 重要 的 一 点 就 是 , 查找 未 命中 的 成 本 与 键 的 长 度 无 关 。 例如， 
它 说 明 在 一 棵 由 100 万 个 随机 键 构造 出 的 单词 查找 树 中 未 命中 的 查找 也 只 需要 检查 3-4 个 结 点 ， 
无 论 这 些 键 是 含有 7 个 数字 的 车 辆 牌照 还 是 20 个 数字 的 账号 。 虽 然 在 实际 应 用 中 真正 的 随机 键 是 不 
可 能 出 现 的 , 但 该 模型 能 够 描述 一 般 应 用 场景 中 单词 查找 树 算法 对 键 的 处 理 方式 ,上述 猜想 是 合理 的 。 
事实 上 ， 这 种 行为 方式 在 实际 应 用 中 十 分 常见 而 且 也 是 单词 查找 树 得 到 广泛 应 用 的 一 个 重要 原因 。 
5.2.2.3 空间 

一 棵 单词 查找 树 需要 多 少 空间 ? 回答 这 个 问题 (了解 可 用 的 空间 有 多 少 ) 是 有 效 使 用 单词 查找 
树 的 关键 。 


命题 |。 一 棵 单词 查找 树 中 的 链接 总 数 在 RN 到 RNw 之 间 ， 其 中 w 为 键 的 平均 长 度 。 


证 明 。 在 单词 查找 树 中 ， 每 个 键 都 有 一 个 对 应 的 结 点 保存 着 它 关 联 的 值 ， 同 时 每 个 结 点 也 含有 
不 条 链接 ;因此 链接 总 数 至 少 有 RN 条。 如果 所 有 的 键 的 首 字母 均 不 相同 ， 那 么 每 个 键 中 的 每 
个 字母 都 有 一 个 对 应 的 结 点 ， 因 此 链接 总 数 应 该 等 于 尺 乘 以 所 有 键 中 的 字符 总 数 ， 即 RNw。 


表 5.2.2 说 明了 我 们 所 讨论 的 一 些 典 型 的 应 用 场景 所 需 的 空间 成 本 。 它 说 明了 单词 查找 树 中 的 
一 些 经 验 性 的 规律 。 

口 当 所 有 键 均 较 短 时 ， 链 接 的 总 数 接近 于 RN; 

口 当 所 有 键 均 较 长 时 ， 链 接 的 总 数 接近 于 RNw; 
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口 因此 ,缩小 家 能 够 节省 大 量 的 空间 。 
这 张 表 传 递 出 的 另 一 条 更 吉 微 妙 的 信 息 是 ， 在 实际 应 用 中 采用 单词 查找 桂 之 前 了 解 将 要 被 插入 
的 所 有 键 的 性 质 是 非常 重要 的 。 


一 表 5.2.2 典型 的 单词 查找 树 的 空间 需求 


100 万 个 键 所 构造 的 单词 查找 





应 用 典型 的 键 平均 长 | 字母 表 大 小 尺 
入 : A 树 中 的 链接 总 数 
加 利 福 尼 亚 州 的 车 牌号 。 4PGC938 本 256 2 亿 5 千 6 百 万 
256 40 亿 
数字 账号 02400019992993299111 20 全 2 亿 5 千 6 百 万 
URL www.cs.princeton.edu 28 256 40 亿 
- 文本 处 理 ‘seashells = 256 2 亿 5 千 6 百 万 
256 2 亿 5 千 6 百 万 
基因 组 数据 中 的 蛋白 质 。 ACTGACTG 8 4 40 亿 





5.2.2.4 单 向 分 支 人 shells", 1); 

长 键 在 单词 查找 树 中 占用 了 大 量 空间 的 主要 原因 。 put ai ee 

”是 ， 树 中 的 长 键 通常 都 有 一 条 长 长 的 “尾巴 ”， 其 中 每 “标准 的 单词 查找 树 “ “不 存在 单 向 分 支 的 情况 

个 结 点 都 只 含有 一 条 指向 下 一 个 结 点 的 链接 ( 因此 都 
含有 R-1 条 空 链接 ) 。 这 种 情况 并 不 难 纠正 ( 请 见 练 
习 5.2.11 和 图 5.2.9) 。 单 词 查找 树 的 内 部 也 可 能 存在 
单 向 的 分 支 。 例 如 ， 两 个 长 键 可 能 只 有 最 后 一 个 字符 
不 同 。 解 决 这 种 情况 要 更 加 困难 -- 些 ( 请 见 练习 5.2.12 )。 
这 些 修改 能 够 使 得 单词 查找 树 的 空间 消耗 比 已 经 讨论 
过 的 简单 实现 缩小 许多 ， 但 它们 对 于 实际 应 用 场景 基 
本 不 起 作用 。 下 面 我 们 将 学 习 降低 单词 查找 树 的 空间 
消耗 的 另 一 种 方式 。 

我 们 的 底线 是 : 不 要 使 用 算法 5.4 处 理 来 自 于 大 
型 字母 表 的 大 量 长 键 。 它 所 构造 的 单词 查找 树 所 需要 
的 空间 与 R 和 所 有 键 的 字符 总 数 之 积 成 正比 。 但 是 ; 
如 果 你 能 够 负担 得 起 这 么 庞大 的 空间 ， 单 词 查找 树 的 
性 能 是 无 可 匹敌 的 。 


5.2.3 . 三 向 单词 查找 树 图 52.9 .消除 单词 查找 树 中 的 单 向 分 支 


为 了 避免 R 向 单词 查找 树 过 度 的 空间 消耗， 我 们 现在 来 学 习 另 一 种 数据 的 表示 方法 ; 三 向 单词 查 

- 找 树 (TST) s 在 三 向 单词 查找 树 中 ， 每 个 结 点 都 含有 一 个 字符 、 三 条 链接 和 一 个 值 。 这 三 条 链接 分 

别 对 应 着 当前 字母 小 于 、 等 于 和 大 于 结 点 字母 的 所 有 键 。 在 算法 5 4 的 R 向 单词 查找 树 中 ， 树 的 结 点 

含有 尺 条 链接 ， 每 个 非 空 链接 的 索引 隐 式 地 表示 了 它 所 对 应 的 字符 。 在 等 价 的 三 向 单词 查找 树 中 , 字 

符 是 显 式 地 保存 在 结 点 中 的 一 只 有 在 沿 着 中 间 链 接 前 进 时 才 人 请 见 图 52.10。 
查找 与 插入 操作 

用 三 向 单词 查找 树 实现 符号 表 API 中 的 查找 和 插入 操作 很 简单 。 在 查找 时 ， 我 们 首先 比较 键 的 

首 字母 和 根 结 点 的 字母 。 如 果 键 的 首 字母 较 小 , 就 选择 左 链接 ; 如 果 较 大 , 就 选择 右 链接 ; 如 果 相等 ， 







外 外 部 的 音 向 分 支 。 
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则 选择 中 链接 。 然 后 ， 递 归 地 使 用 相同 的 算法 。 如 果 过 到 了 一 个 空 链接 或 者 当 键 结束 时 结 点 的 值 为 
空 , 那么 查找 未 命中 ; 如 果 键 结束 时 结 点 的 值 非 空 则 查找 命中 。 在 插入 一 个 新 键 时 ， 首 先进 行 查找 ， 
然后 和 在 单词 查找 树 一 样 ， 在 树 中 补 全 键 未 尾 的 所 有 结 点 。 算 法 5.5 给 出 了 这 些 方法 的 实现 细节 。 
这 种 实现 方式 等 价 于 将 R 向 单词 查找 树 中 的 每 个 结 点 实现 为 以 非 空 链接 所 对 应 的 字符 作为 键 
的 二 叉 查 找 树 。 不 同 的 是 ,算法 5.4 使 用 的 是 由 键 索引 的 数组 。 图 5.2.10 显示 了 一 棵 单词 查找 树 
和 与 它 相对 应 的 三 向 单词 查找 树 。 按 照 第 3 章 中 所 述 的 二 叉 查找 树 和 其 他 排序 算法 之 间 的 对 应 关 





指向 所 有 首 字母 ”指向 
AR ea 





图 5.2.10 一 棵 单词 查找 树 所 对 应 的 三 向 
单词 查找 树 


算法 5.5 基于 三 向 单词 查找 树 的 符号 表 


系 来 看 ， 我 们 可 以 发 现 三 向 单词 查找 树 与 三 向 字符 串 
快速 排序 之 间 的 对 应 关系 与 二 叉 查找 树 与 快速 排序 以 
及 单词 查找 树 与 高 位 优先 的 排序 之 间 的 对 应 关系 是 一 
样 的 。 图 5.1.12 和 图 5.1.17 分 别 显示 了 高 位 优先 的 字 
符 串 排序 和 三 向 字符 串 快速 排序 的 递归 调用 结构 ， 它 
们 与 图 5.2.10 中 由 同一 组 键 所 构造 的 单词 查找 树 和 三 
向 单词 查找 树 正好 完全 对 应 。 单 词 查找 树 中 的 链接 所 
占用 的 空间 即 为 高 位 优先 的 字符 串 排序 中 的 计数 器 所 
占用 的 空间 。 三 向 分 支 为 两 者 都 提供 了 一 个 非常 有 效 
的 解决 方案 ， 请 见 图 5.2.11 和 图 5.2.12。 


get("sea") 匹配 ， 选 择 中 链接 ， 


继续 处 理 下 一 个 字符 
不 匹配 ; 选择 左 链接 或 者 
右 链 接 ， 但 当前 字符 不 变 





返回 和 键 的 尾 字 
符 相关 联 的 值 


图 5.2.11 三 向 单词 查找 树 中 的 查找 示例 





public class TST<Value> 
{ 
private Node root; 
private class Node 
了 
char c; 
Node left, mid, right; 
Value val; 


// 树 的 根 结 点 


// 字符 
// 左 中 右 于 三 向 单词 查找 树 
// 和 字符 事 相关 联 的 值 
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public Value get(String key) // 和 单词 查找 树 相同 (请 见 算法 5.4) 


private Node get(Node x, String key, int d) 

{ 
if (x == nul1) return nul1; 
char < = key.charAt(d); 
if (Cc < x.c) return get(x.left, key, d); 
else if (c > x.c) return get(x.right, key, d); 
else if (d < key.lengthO - 1) 

return get(x.mid, key, d+l); 

else return x; 


了 


public void put(String key, Value val) 
{ root = put(root, key, val, 0); } 


private Node put(Node x, String key, Value val, int d) 
{ 
char c = key.charAt(d); 
if (x == nul1) { x = new Node(); x.c = ci } 
if (Cc < Xx.c) x.left = put(x.left, key, val, d); 
else if (c > x.c) x.right = put(x.right, key, val, d); 
else if (d < key.lengthO) - 1) 
xmid = put(x.mid, key, val, d+1); 
else x.val = val; 
return xi 


} 
这 段 实现 使 用 含有 一 个 char 类 型 的 值 c 和 三 条 链接 的 结 点 构建 了 三 向 单词 查找 树 ， 其 中 子 树 的 键 
的 首 字母 分 别 小 于 ( 左 子 树 ) 、 等 于 ( 中 子 树 ) 和 大 于 ( 右 子 树 ) c。 











标准 的 链接 数组 (R=26) 5 
指向 所 有 Ls 
gh 开头 的 健 的 名 接 
人 人、 指向 所 有 以 一 全 
Su 开头 的 键 
的 链接 746| 
图 5.2.12 单词 查找 树 结 点 示例 人 











5.2.4 ”三 向 单词 查找 树 的 性 质 
三 向 单词 查找 树 是 R 向 单词 查找 树 的 紧凑 表示 ， 但 两 种 数据 结构 的 性 质 截然 不 同 。 这 其 中 最 重 
要 的 不 同 可 能 在 于 命题 A 对 于 三 向 单词 查找 树 不 再 成 立 : 和 其 他 所 有 二 叉 查 找 树 一 样 ， 每 个 单词 查 
a 也 了 次 寺 键 的 插入 顺序 。 
5.2.4.1 空间 
a 三 向 单词 查找 树 最 重要 的 性 质 就 是 每 个 结 点 只 含有 三 个 链接 ， 因 此 三 向 单词 查找 树 所 需要 空间 
远 小 于 对 应 的 单词 查找 树 。 
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。 命题 J。 由 WW 个 平均 长 度 为 的 字符 帅 构 迁 的 三 向 单词 查找 树 中 的 链接 首 数 在 3N 到 3Nw 之 间 。 
证 明 。 同 命题 1。 


三 向 单词 查找 树 实际 使 用 的 内 存 空间 一 般 都 低 于 由 每 个 字符 三 个 链接 得 到 的 上 界 ， 因 为 有 相同 
“前 级 的 键 会 共享 树 中 的 高 层 结 点 。 ga 
”5.2.4.2 查找 成 本 
要 计算 三 向 单词 查找 树 中 查找 ( 和 插入 ) 操作 的 成 本 ， 需 要 将 它 所 对 应 的 单词 查找 树 中 的 查找 
成 本 乘 以 遍历 每 个 结 点 的 二 叉 查找 树 所 需 的 成 本 二 


命题 K. 在 一 哥 由 N 个 随机 字符 囊 构造 的 三 向 单词 查找 树 中 ,查找 未 命中 平均 需要 比较 字符 ~ InN 次 。 
除 ~ InN 次 外 ， 一 次 插入 或 命中 的 查找 会 比较 一 次 被 查找 的 键 中 的 每 个 字符 。 


证 明 。 由 代码 我 们 马上 可 以 得 到 插入 和 查找 命中 的 成 本 。 查 找 坟 命中 的 成 本 的 证 明和 命题 也 的 
简略 证 明 相 同 。 假 设 在 查找 路 径 上 除了 常数 个 结 点 (高 层 的 几 个 ) 之 外 的 其 他 所 有 结 点 均 为 由 
及 个 字符 值 随 机 构造 的 二 又 查找 树 ， 且 树 的 平均 路 径 长 度 为 InR， 因 此 将 时 间 成 本 logaN=InN/ 


在 最 坏 情况 下 ， 一 个 结 点 可 能 变 成 一 个 完全 的 R 向 结 点 ， 不 平衡 且 像 一 条 链表 一 样 展 开 ， 因 此 
需要 乘 以 一 个 系数 R。 一 般 的 情况 下 ， 在 第 一 层 ( 因为 根 结 点 类 似 于 一 棵 由 个 不 同 的 值 组 成 的 随 
机 二 又 查找 树 ) 甚至 是 其 下 的 几 层 ( 如果 键 存在 公共 的 前 级 且 前 级 之 后 的 字符 最 多 可 能 有 RR 种 不 同 
的 取 值 ) 那 么 进行 字符 比较 的 次 数 将 是 InR 或 者 更 少 , 之 后 对 于 大 多 数字 符 也 只 需 进行 几 次 比较 ( 因 
为 指向 大 多 数 单词 查找 树 结 点 的 非 空 链 接 的 分 布 十 分 稀 歼 ) 。 未 命中 的 查找 一 般 都 需要 若干 次 字符 

749] ”比较 并 结束 于 单词 查找 树 高 层 的 某 个 空 链接 。 在 命中 的 查找 中 ， 被 查找 的 键 中 的 每 个 字符 都 需要 并 
且 只 需要 一 次 比较 ， 因 为 它们 大 多 数 都 是 单词 查找 树 底部 的 单 向 分 支 上 的 结 点 。 
5.2.4.3 字母 表 

使 用 三 向 单词 查找 树 的 最 大 好 处 是 它 能 够 很 好 地 适应 实际 应 用 中 可 能 出 现 的 被 查找 键 的 不 规则 
性 。 需 要 特别 注意 到 的 是 ， 不 应 该 按照 用 例 提供 的 字母 表 构 造 字符 串 ， 这 对 于 单词 查找 树 很 关键 。 
这 主要 会 产生 两 点 影响 。 首 先 ， 实 际 应 用 中 的 键 都 来 自 于 大 型 字母 表 ， 而 且 字 符 集中 的 各 个 字符 的 
使 用 是 非常 不 均衡 的 。 有 了 三 向 单词 查找 树 ， 我 们 可 以 使 用 256 个 字符 的 ASCII 编码 或 者 65 536 
个 字符 的 Unicode 编码 ， 而 不 必 担 心 256 向 分 支 或 者 65 536 向 分 支 带 来 的 巨大 开销 ， 也 不 必 判 断 哪 
些 才 是 相关 的 字符 集 。 非 罗马 字母 表 的 Unicode 字符 串 中 可 能 含有 上 千 种 字符 一 一 三 向 单词 查找 树 
特别 适合 于 可 能 含有 此 类 字符 的 Java 标准 String 类 型 的 键 。 其 次 ， 实 际 应 用 程序 中 的 键 常常 有 着 
类 似 的 结构 ; 这 在 不 同 的 应 用 之 中 可 能 不 同 。 键 的 一 部 分 可 能 只 会 使 用 字母 ， 而 另 一 部 分 可 能 只 会 
使 用 数字 。 在 加 利 福 尼 亚 州 的 车 牌号 的 例子 中 ,第 二 、 三 、 四 个 字符 都 是 大 写字 母 ( R=26 ) ， 而 其 
他 字符 都 是 数字 ( R=10 ) 。 在 这 种 键 构造 的 三 向 单词 查找 树 中 ， 一 部 分 结 点 会 被 表示 为 10 结 点 的 
二 义 查 找 树 ( 键 的 数字 部 分 ) ， 另 一 部 分 结 点 会 被 表示 为 26 结 点 的 二 叉 查 找 树 ( 键 的 字母 部 分 ) 。 
这 种 结构 的 生成 是 自动 的 ， 无 需 对 键 进行 特别 分 析 。 
5.2.4.4 “前缀 匹配 、 查 找 所 有 键 和 通配符 匹配 

因为 三 向 单词 查找 树 也 是 单词 查找 树 ， 前 文中 单词 查找 树 的 1ongestPrefixOf() 、keys()、 
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keysWithPrefix() 和 keyThatMatch() 方法 的 实现 可 以 很 容易 移植 过 来 。 这 个 练习 能 够 加 深 你 对 
单词 查找 树 和 三 向 单词 查找 树 的 理解 ( 请 见 练习 5.2.9 ) 。 和 查找 操作 一 样 ， 这 里 也 存在 空间 和 时 间 
的 交换 ( 使 用 线性 级 别 的 内 存 空 间 ， 但 每 个 字符 的 比较 次 数 需要 乘 以 InR ) 。 
5.2.4.5 ”删除 操作 

三 向 单词 查找 树 中 的 delete() 方法 要 更 复杂 一 些 。 从 本 质 上 来 说 ， 每 个 将 被 删除 的 字符 都 属 
于 一 棵 二 又 查找 树 。 在 单词 查找 树 中 ， 只 需 将 链接 数组 中 和 该 字符 对 应 的 元 素 置 为 空 即 可 删 去 它 的 
链接 。 在 三 向 单词 查找 树 中 ， 需 要 用 在 二 叉 查找 树 中 删除 结 点 的 方法 来 删 去 与 该 字符 对 应 的 结 点 。 
5.2.4.6 ”混合 三 向 单词 查找 树 

简单 改进 一 下 基于 三 向 单词 查找 树 的 查找 方式 : 使 用 一 个 大 型 显 式 的 多 向 根 结 点 。 实 现 它 最 简 
单 的 办 法 就 是 维护 一 张 含 有 R 棵 三 向 单词 查找 树 的 表 : 每 一 棵 都 对 应 着 键 的 首 字母 的 一 种 可 能 的 值 。 
如 果 R 不 大 ， 那 可 以 使 用 键 的 头 两 个 字母 ( 表 的 大 小 变 为 R) 。 这 种 方法 有 效 的 前 提 是 键 的 首 字母 
的 分 布 必须 均匀 。 这 样 得 到 的 混合 查找 算法 和 人 们 在 电话 黄页 中 查找 姓名 的 行为 很 相似 。 查 找 的 第 [750 
一 步 是 进行 多 向 判断 (“让 我 们 来 看 看 , 它 的 首 字母 是 “A””) , 接 下 来 可 能 是 某 种 双向 判断 (“ 它 
在 “Andrews” 之 前 , 但 在 “Aitken” 之 后 ”) ， 然 后 就 是 一 系列 字符 匹配 ( ““Algonquin，，……: 
没有 ，“Algorithms” 不 在 列表 之 中 ， 因 为 没有 以 “Algor” 开 头 的 单词 ”) 。 这 些 程序 可 能 是 查 
找 字符 串 类 型 的 键 的 最 快 算法 。 
5.2.4.7 单 向 分 支 

和 单词 查找 树 一 样 ， 我 们 也 可 以 通过 将 键 的 尾 字母 变 为 叶子 结 点 并 在 内 部 结 点 中 消除 单 向 分 支 
来 提高 三 向 单词 查找 树 的 空间 利用 率 。 














命题 L。 由 NN 个 随机 字符 串 构 造 的 根 结 点 进行 了 RR 向 分 支 且 不 含有 外 部 单 向 分 支 的 三 向 单词 查 
找 树 中 ， 一 次 插入 或 查找 操作 平均 需要 进行 约 ln-tinR 次 字符 比较 。 


证 阴 。 这 些 租 略 的 估计 也 可 以 由 命题 的 证 明 得 到 。 候 设 在 查找 路 径 上 除了 常数 个 结 点 《高 
层 的 几 个 ) 之 外 的 其 他 所 有 结 皮 均 为 由 中 个 字符 值 组 成 的 二 又 查找 树 ， 因 此 需要 将 时 间 成 本 
乘 以 nR。 
尽管 将 算法 调 优 至 最 佳 性 能 是 一 个 非常 大 的 诱惑 ， 我 们 不 应 该 忘记 三 向 单词 查找 桂 最 吸引 人 的 
特点 ， 那 就 是 不 必 担心 对 特定 应 用 场景 的 依赖， 即使 是 在 没有 调 优 的 情况 下 也 能 提供 不 错 的 性 能 。 [751 


5.2.5 ”应 该 使 用 字符 串 符号 表 的 哪 种 实现 

和 字符 串 排序 一 样 ， 我 们 自然 也 想 对 比 一 下 已 经 学 习 过 的 字符 串 查 找 方法 和 第 3 章 中 学 习 
的 通用 方法 。 表 5.2.3 总 结 了 已 讨论 过 的 各 种 算法 的 重要 性 质 ( 二 叉 查 找 树 、 红 黑 树 和 散 列 表 的 
条 目 来 自 第 3 章 ， 作 为 比较 之 用 ) 。 对 于 特定 的 应 用 场景 ， 这 些 条 目 有 指导 意义 ， 但 并 非 绝 对 
的 结论 ， 因 为 在 研究 符号 表 实现 的 过 程 中 发 现 许 多 因素 ( 例如 键 的 性 质 和 混合 操作 的 顺序 ) 都 
会 产生 影响 。 

如 果 空 间 足 够 ，R 向 单词 查找 树 的 速度 是 最 快 的 ， 能 够 在 常数 次 字符 比较 内 完成 查找 。 对 于 大 
型 字母 表 , R 向 单词 查找 树 所 需 的 空间 可 能 无 法 满足 时 , 三 向 单词 查找 树 是 最 佳 的 选择 , 因为 它 对 “ 字 
符 ” 比 较 次 数 是 对 数 级 别 的 比较 ， 而 二 又 查找 树 中 键 的 比较 次 数 是 对 数 级 别 的 。 散 列表 也 是 很 有 竞 
争 力 的 ,但 如 前 文 所 述 ， 它 不 支持 有 序 性 的 符号 表 操作 ， 也 不 支持 扩展 的 字符 类 API 操 作 ， 例 如 前 
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组 或 通配符 匹配 。 
表 5.2.3 各 种 字符 串 查找 算法 的 性 能 特点 
处 理由 大 小 为 尺 的 字母 表 构造 的 NN 个 字符 串 
法 数据 结构 ) (平均 长 度 为 w) 的 增长 数量 级 优点 
| 未 命中 查找 检查 的 字符 数量 | 内 存 使 用 
三 又 权 查 找 (BST) ET | 运用 于 随机 排列 的 刍 







2-3 树 查找 ( 红 黑 树 ) 
线性 探测 法 ( 并 行 数组 ) 


64N 
32N~128N 


字典 树 查 找 ( R 向 单词 查找 树 ) (8R+56)N~(8R+56) 
Nw 





字典 树 查找 ( 三 向 单词 查找 树 ) 


图 答 才 
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间 ，Java 的 系统 排序 方法 使 用 了 本 节 介 绍 的 方法 来 查找 String 类 型 的 键 吗 ? 




















有 性 能 保证 


内 置 类 型 
缓存 散 列 值 


适用 于 较 短 的 键 和 较 小 的 
字母 表 


适用 于 非 随机 的 键 








753] 答 没有 。 
轩 练习 
5.2.1 将 以 下 键 按照 顺序 插 人 一 棵 R 向 空 单词 查找 树 之 中 并 画 出 结果 ( 忽略 空 链接 ) : no is th ti 
fo al go pe to co to th ai of th pa。 
5.2.2 将 以 下 键 按照 顺序 插 人 一 棵 空 三 向 单词 查找 树 之 中 并 画 出 结果 ( 忽略 空 链接 ) : no is th ti fo 
al go pe to co to th ai of th pa, 
5.2.3 将 以 下 键 按照 顺序 插入 一 棵 尺 向 空 单词 查找 树 之 中 并 夯 出 结果 ( 忽略 空 链接 ) : now is the 
time for all good people to come to the aid of, 
5.2.4 ”将 以 下 键 按照 顺序 插入 一 棵 空 三 向 单词 查找 树 之 中 并 夯 出 结果 ( 忽略 空 链 接 ) : now is the 
time for all good people to come to the aid of, 
5.2.5 ”给 出 非 递归 版 本 的 TrieST 和 TST。 
5.2.6 对 于 StringSET 数据 类 型 实现 以 下 API， 如 表 5.2.4 所 示 。 
- 表 5.2.4 ”字符 串 集合 的 数据 类 型 的 API 
public class StringSET 
StringSET() > 创建 一 个 字符 串 的 集合 
void add(String key) ，.: 将 key 添加 到 集合 中 
void delete(String key) 从 集合 中 删除 key 
boolean contains(String key): key 是 否 存在 于 集合 中 
boolean isEmptyO 集合 是 否 为 空 
int size() 集合 中 的 键 的 数量 
754| String toStringO) 对 象 的 字符 串 表示 
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图 提高 亚 
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5.2.18 
5.2.19 
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三 向 单词 查找 树 中 的 空 字符 囊 。 三 向 单词 查找 树 ( TST ) 的 代码 未 能 正确 处 理 空 字符 串 。 说 明 原 
因 并 给 出 修正 方案 。 
单词 查找 树 的 有 序 性 操作 。 为 TrieST 实现 floor()、ceiling()、rank() 和 select() 方法 (来 
自 第 3 章 标准 有 序 性 符号 表 的 API ) 。 
三 向 单词 查找 树 的 扩展 操作 。 为 三 向 单词 查找 树 实现 keys() 和 本 节 所 介绍 的 几 种 扩展 操作 : 
TongestPprefixOf()、 keysWithprefix() 和 keysThatMatch()。 
size( 方法 。 为 TrieST 和 TST 实现 最 为 即时 的 size() 方法 ( 在 每 个 结 点 中 保存 子 树 中 的 键 
的 总 数 ) 。 
外 部 单项 分 支 。 为 TrieST 和 TST 添加 消除 外 部 单 向 分 支 的 代码 。 
内 部 单项 分 支 。 为 TrieST 和 TST 添加 消除 内 部 单 向 分 支 的 代码 。 
民 向 分 支 的 根 结 点 的 三 向 单词 查找 树 。 如 正文 所 述 ， 为 TST 添加 代码 ， 在 前 两 层 结 点 中 实现 多 
向 分 支 。 
长 度 为 上 的 唯一 子 字符 事 。 编 写 一 个 TST 的 用 例 ， 从 标准 输入 读 取 文本 并 计算 其 中 长 度 为 工 的 
唯一 子 字符 串 的 数量 。 例 如 ,如 果 输 入 为 cgcgggcgc9, 那么 长 度 为 3 的 唯一 子 字符 串 就 有 5 个 : 
cgc、cgg、gcg、ggc 和 ggg。 提 示 : 使 用 字符 串 方法 substring(i,i+L) 来 提取 第 i 个 子 字符 
串 并 将 它 插入 到 一 张 符号 表 中 。 
唯一 子 字符 串 。 编 写 一 个 TST 的 用 例 ， 从 标准 输入 读 取 文 本 并 计算 其 中 任意 长 度 的 唯一 子 字符 
串 的 数量 。 后 绷 树 能 够 高 效 完成 这 个 任务 一 一 请 见 第 6 章 。 
文档 的 相似 性 。 编 写 一 个 TST 的 静态 方法 用 例 ， 接 受 一 个 int 值 L 和 两 个 文件 名 作为 命令 行 参 
数 并 计算 两 份 文档 的 “L- 相似 性 ”: 各 个 频率 向 量 之 间 的 欧 拉 距 离 ， 其 中 频率 向 量 为 各 个 长 度 
为 3 的 子 字符 串 ( trigram ) 的 出 现 次 数 除 以 所 有 长 度 为 3 的 子 字 符 串 的 总 数 。 给 出 一 个 静态 方 
法 main(O， 接 受 一 个 int 值 L 作为 命令 行 参数 ， 从 标准 输入 中 获取 一 系列 文件 名 并 打印 出 一 个 
矩阵 ， 以 显示 所 有 文档 之 间 的 L- 相似 性 。 
拼写 检查 。 编 写 一 个 TST 的 用 例 Spe11Checker， 从 命令 行 接受 一 个 英语 字典 文件 作为 参数 ， 然 
后 从 标准 输入 读 取 一 个 字符 串 并 打印 所 有 不 在 字典 中 的 单词 。 请 使 用 字符 串 集合 数据 类 型 。 
白 名 单 。 编 写 一 个 TST 的 用 例 , 解 决 1.1 节 和 3.5 节 中 介绍 并 讨论 过 的 ( 请 见 3.5.2.2 节 ) 白 名 单 问题 。 
随机 电话 号 码 。 编 写 一 个 TrieST 的 用 例 (R=10 ) ， 从 命令 行 接受 一 个 int 值 N 并 打印 出 N 个 
形 如 (xxx) xxx-xxxx 的 随机 电话 号 码 。 使 用 符号 表 避 免 出 现 重复 的 号 码 。 使 用 本 书 网 站 上 的 
AreaCodes.txt 来 避免 打印 出 不 存在 的 区 号 。 
是 否 含有 前 缓 。 为 StringSET 类 ( 请 见 练习 526 ) 添加 一 个 方法 containsPrefixO ,接受 一 个 字符 
串 s 作为 输入 ， 如 果 集合 中 存在 某 个 以 s 作为 前 缀 的 字符 串 时 返回 true。 
子 字符 事 匹 配 。 给 定 一 列 ( 短 ) 字 符 串 , 你 的 任务 是 找到 所 有 含有 用 户 所 寻找 的 字符 串 s 的 字符 串 。 
为 此 任务 设计 一 份 API 并 给 出 一 个 TST 用 例 来 实现 这 个 API。 提 示 : 将 每 个 单词 的 所 有 后 组 ( 例 
如 : string, tring, ring，ing, ng, 9 ) 插入 到 TST 中。 
打字 的 获 子 。 假 设 有 一 只 会 打字 的 猴子 ， 它 打出 每 个 字母 的 概率 为 P， 结 束 一 个 单词 的 概率 为 
1-26p。 编 写 一 个 程序 ， 计 算 产生 各 种 长 度 的 单词 的 概率 分 布 。 其 中 如 果 "abc" 出 现 了 多 次 ， 只 
计算 一 次 。 
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5.2.23 重复 元 素 (再 续 ) 。 使 用 StringSET ( 请 见 练习 5.2.6 ) 代替 HashSET 重新 完成 练习 3.5.30， 比 
较 两 种 方法 的 运行 时 间 。 然 后 使 用 dedup 为 N=10"、10* 和 10? 运行 实验 ， 用 随机 1ong 型 字符 串 
重复 实验 并 讨论 结果 。 

5.2.24 拼写 检查 器 。 使 用 本 书 网 站 上 的 dictionary.txt 文件 和 3.5.2.2 节 中 的 BlackFilter 用 例 重新 完成 
练习 3.5.31 并 打印 出 一 个 文本 文件 中 所 有 拼 错 的 单词 。 用 该 用 例 处 理 wartxt 文件 ， 比 较 TrieST 
和 TST 的 性 能 并 讨论 结果 。 

5.2.25 字典。 重新 完成 练习 3.5.32: 在 一 个 需要 高 性 能 的 场景 中 研究 一 个 类 似 于 LookupCSV 的 用 例 的 
性 能 ( 使 用 TrieST 和 TST ) 。 确 切 地 说 ,设计 一 个 查询 生成 器 来 取代 从 标准 输入 接受 命令 ， 对 
大 量 输入 和 大 量 查询 进行 性 能 测试 。 

5.2.26 索引。 重新 完成 练习 3.5.33: 在 一 个 需要 高 性 能 的 场景 中 研究 一 个 类 似 于 LookupIndex 的 用 例 
的 性 能 ( 使 用 TrieST 和 TST ) 。 确 切 地 说 ， 设 计 一 个 查询 生成 器 来 取代 从 标准 输入 接受 命令 ， 

757 对 大 量 输入 和 大 量 查询 进行 性 能 测试 。 
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5.3 子 字 符 串 查找 


字符 申 的 一 种 基本 操作 就 是 子 字 符 串 查找 : 给 定 一 段 长 度 为 W 的 文本 和 一 个 长 度 为 M 的 模式 

(pattem ) 字符 串 ， 在 文本 中 找到 一 个 和 该 模式 相符 的 子 字符 串 请 见 图 5.3.1。 解 决 该 问题 的 大 部 分 算 

。 法 都 可 以 很 容易 地 扩展 为 找 出 文本 中 所 有 和 该 模式 相符 的 子 字符 串 : 统 计 该 模式 在 文本 中 的 出 现 次 数 、 
或 者 找 出 上 下 文 ( 和 该 模式 相符 的 子 字符 串 周围 的 文字 ) 的 算法 。 


RHE EOLTE 
正文 一 I NA HAY STACKNEEDLELINA 


He | 


匹配 
图 5.3.1 - 子 字符 串 的 查找 


当 你 在 文本 编辑 器 或 是 浏览 器 中 查找 某 个 单词 时 ， 就 是 在 查找 子 字符 申 。 事 实 上 ， 该 问题 的 原 
始 动机 就 是 为 了 支持 这 种 查找 操作 。 字 符 串 查找 的 另 一 个 经 典 应 用 是 在 截获 的 通信 内 容 中 寻找 某 种 
重要 的 模式 。 一 位 军队 将 领 感 兴趣 的 可 能 是 在 截获 的 文本 中 寻找 和 “拂晓 进攻 ”类 似 的 字句。 一 名 
黑客 感 兴趣 的 可 能 是 在 内 存 中 查找 与 “Password:” 相 关 的 内 容 。 在 今天 的 世界 中 ,我 们 经 常 在 互联 
网 的 海量 信息 中 查找 字符 串 。 

为 了 更 好 地 理解 算法 ， 请 记 住 模式 相对 于 文本 是 很 短 的 M 可 能 等 于 100 或 者 1000 ) ， 而 文 
本 相对 于 模式 是 很 长 的 (N 可 能 等 于 100 万 或 者 10 亿 ) 。 在 字符 串 查 找 中 ， 一 般 会 对 模式 进行 预 
处 理 来 支持 在 文本 中 的 快速 查找 。 

字符 申 查 找 是 一 个 很 有 趣 而 且 也 很 经 典 的 问题 ， 人 们 发 明了 几 个 截然 不 同 ( 且 令 人 惊讶 的 ) 算 
法 ， 它 们 不 仅 产生 了 一 系列 能 够 实际 应 用 的 查找 方法 ， 而 且 也 展示 了 许多 重要 的 算法 设计 技巧 。 


5.3.1 历史 简介 


我 们 将 要 学 习 的 几 种 算法 有 一 段 有 趣 的 历史 。 我 们 在 这 里 进行 总 结 并 帮助 大 家 对 它们 的 地 位 有 
一 个 正确 的 认识 。 

子 字符 串 查找 有 一 个 简单 而 使 用 广泛 的 暴力 算法 。 虽 然 它 在 最 坏 情况 下 的 运行 时 间 与 MN 成 正 
比 ， 但 是 在 处 理 许多 应 用 程序 中 的 字符 串 时 ( 除了 一 些 变态 的 情况 之 外 ) ， 它 的 实际 运行 时 间 一 般 
与 M+NN 成 正比 。 另 外 ， 它 很 好 地 利用 了 大 多 数 计算 机 系统 中 标准 的 结构 特性 ， 因 此 即使 是 更 加 巧 
妙 的 算法 也 很 难 超越 它 经 过 优化 后 的 版 本 的 性 能 。 

在 1970 年 ，S.Cook 在 理论 上 证 明了 一 个 关于 某 种 特定 类 型 的 抽象 计算 机 的 结论 。 这 个 结论 暗 
示 了 一 种 在 最 坏 情况 下 用 时 也 只 是 与 M+ N 成 正比 的 解决 子 字符 串 查找 问题 的 算法 。D.E.Knuth 和 
VR.Pratt 改进 了 Cook 用 来 证 明定 理 的 框架 ( 并 非 为 实际 应 用 所 设计 ) 并 将 它 提炼 为 一 个 相对 简单 
而 实用 的 算法 。 这 看 起 来 是 一 个 鲜 有 但 令 人 满意 的 将 理论 结果 ( 意外 的 ) 立 刻 转化 为 实际 应 用 的 例子 。 
但 实际 上 ，J.H.Morris 在 实现 一 个 文本 编辑 器 时 ， 为 了 解决 某 个 棘手 的 问题 ( 他 希望 能 够 在 文本 中 
避免 “ 回 退 ”) 也 发 明了 几乎 相同 的 算法 。 殊 途 同 归 的 两 种 方式 得 到 了 同一 种 算法 ， 这 说 明 它 是 这 
个 问题 的 一 种 基础 的 解决 方案 。 

Knuth、Morris 和 Pratt 直到 1976 年 才 发 表 了 他 们 的 算法 。 在 这 段 时 间 里 , R.S.Boyer 和 JS.Moore 
(以 及 R.W.Gosper 独立 地 ) 发 明了 一 种 在 许多 应 用 程序 中 都 非常 快 的 算法 ， 该 算法 一 般 只 会 检查 文 
本 字符 昌 中 的 一 部 分 字符 。 许多 文本 编辑 器 都 使 用 了 这 个 算法 ， 以 显著 降低 字符 串 查 找 的 响应 时 间 。 
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Knuth-Morris-Pratt 算法 和 Boyer-Moore 算法 都 需要 对 模式 字符 串 进行 复杂 的 预 处 理 ， 这 个 过 程 
… .十 分 星 涩 而 且 也 限制 了 它们 的 应 用 范围 。 (事实 上 ， 有 位 系统 程序 员 觉 得 Morris 算法 实在 是 太 难 仅 
- - 了， 就 干脆 用 暴力 算法 代替 了 。) 
在 1980 年 ，M.O.Rabin 和 RM.Kamp 使 用 散 列 开发 出 了 一 种 与 暴力 算法 几乎 一 样 简单 但 运行 时 
间 与 M+N 成 正比 的 概率 极 高 的 算法 。 另 外 ,它们 的 算法 还 可 以 扩展 到 二 维 的 模式 和 文本 中 ,这 使 
得 它 比 其 他 算法 更 适用 于 图 像 处 理 。 
这 段 历史 说 明 人 们 在 不 断 地 研究 更 好 的 算法 。 事实 上 天 家 都 认为 ， 这 个 经 典 问题 还 将 会 有 很 大 
759| 的 发 展 。 


”5.3.2 暴力 子 字符 串 查 找 算法 
子 字符 串 查找 的 一 个 最 显而易见 的 方法 就 是 在 文本 中 模式 可 能 出 现 匹 配 的 任何 地 方 检查 匹配 是 


否 存在 。 如 左 侧 框 注 所 示 的 search() 方法 就 是 在 文本 字符 串 txt 中 查找 模式 字符 申 pat 第 一 次 出 现 
的 位 置 。 这 段 程序 使 用 了 一 个 指 














public static int search(String pat, String txt) 针 跟踪 文本 ， 一 个 指针 jj 跟踪 
ee 模式 。 对 于 每 个 1， 代 码 首先 将 
int N = txt. lengthO); 5 重 置 为 0 并 不 断 将 它 增 大 ， 直 至 
for (int i = 0; i <= N - Mi i++) 找到 了 一 个 不 匹配 的 字符 或 是 模 
A 式 结束 (j=-M) 为 止 ,请 见 图 532。 
ee 9 : 和 A 如 果 在 模式 字符 串 结束 之 前 文本 

Re arAt(i+j) != pat.charAt(j)) 字符 曲 就 已 经 结束 了 (i--N-M4D， 

证 (j mm MD return 4; // 找到 区 本 那么 就 没有 找到 匹配 ， 模式 字符 
Wap Dae 中 在 文本 中 不 存在 。 我 们 约定 在 

} 不 匹配 时 返回 N 的 值 。 ， 
暴力 子 字符 串 查 找 在 典型 的 字符 串 处 理应 用 程 


序 中 ,索引 j 增长 的 机 会 很 少 ， 
因此 该 算法 的 运行 时 间 与 N 成 正比 。 绝 大 多 数 比 较 在 比较 第 一 个 字符 时 就 会 产生 不 匹配 。 例 如 ， 
假设 你 在 这 一 段 文字 之 中 查找 pattem 这 个 模式 字符 串 。 在 找到 模式 字符 申 的 第 一 次 匹配 之 前 共有 
191 个 单词 ， 其 中 只 有 7 个 的 首 字 母 是 p ( 且 没 有 以 pa 开头 的 单词 ) 。 因 此 字符 比较 的 总 次 数 为 
191+7， 也 就 是 说 文本 中 每 个 字符 平均 需要 比较 1.036 次 。 从 另 一 个 方面 来 说 ， 没 人 能 够 保证 算法 “ 
总 是 如 此 高 效 。 例 如 ， 模 式 字符 串 可 能 以 一 连 串 的 A 开头 。 如 果 是 这 样 且 文本 也 包含 含有 一 大 串 A 

760] 的 字符 串 ， 那 么 字符 串 的 查找 就 可 能 会 很 慢 。 














六 。 在 最 坏 情况 下 ， 暴力 子 字符 事 查 找 算法 在 长 度 为 N 的 文本 中 查找 长 度 为 M 的 模式 需 
符 比 较 ， 请 见 图 53.3。 


9 情况 是 文本 和 模式 都 是 一 连 串 的 A 接 一 个 B。 那 么 ,对 于 N-Mt+l 个 可 能 的 
所 有 字符 都 需要 和 文本 比 对 ， 总 成 本 为 MLN-MH)。 一 般 来 说 M 远 小 于 NN， 














二 es 

tt 一 A BACADAB RATC 
AR 
et 红 反 的 
| AB 示 匹 配 失败 
二 2 
人 有 待 匹配 
5 -0 5 最 色 的 元 素 

和 文本 匹配 

6、4 10 A BRA 

当 j 和 W 相 等 时 返回 人 

匹配 成 功 


图 5.3.2 暴力 子 字符 串 查找 ( 另 见 彩 插 ) 
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这 种 奇怪 的 字符 串 不 太 可 能 出 现在 英文 文本 之 中 ,但 在 其 他 应 用 场景 中 是 完全 可 能 的 〈 例 如 二 


进 制 文 本 ) ， 因 此 我 们 需要 更 好 的 算法 。 





下- 及 9 
txt 一 AAAAAA A A B 

二 下 二 哺 AAAA Bpat 

生生 AAAAB 

PM AAAAB 

Rs AAAAB 

党 AAAAB 

5 5 10 A AA 


图 5.3.3 ”暴力 子 字符 串 查找 (最 坏 情况 ) 


下 方 框 注 所 示 的 该 算法 的 另 一 种 实现 是 有 指导 意义 的 。 和 以 前 一 样 ， 程 序 使 用 了 一 个 指针 i 跟 
踪 文本 ， 一 个 指针 j 跟踪 模式 。 在 i 和 j 指向 的 字符 相 匹配 时 ， 代 码 进行 的 字符 比较 和 上 一 个 实现 
相同 。 请 注意 ， 这 段 代 码 中 的 i 值 相 当 于 上 一 段 代码 中 的 i+j: 它 指向 的 是 文本 中 已 经 匹配 过 的 字 
符 序列 的 末端 〔i 以 前 指向 的 是 这 个 序列 的 开头 ) 。 如 果 i 和 j 指向 的 字符 不 匹配 了 ， 那 么 需要 回 
退 这 两 个 指针 的 值 : 将 j 重新 指向 模式 的 开头 ， 将 i 指向 本 次 匹配 的 开始 位 置 的 下 一 个 字符 。 


public static int search(String pat，String txt) 
* 

int j, M = pat.lengthO; 

int i, N = txt.lengthO); 

for (i =0,j=0;i<N ej <M; it+) 


if (txt.charAt(i) == pat.charAt(j)) j++; 
else {1-=j;j=0; } 


秆 
if (j 一 人 return i - M; // 找到 匹配 
else return N; // 未 找到 匹配 


暴力 子 字符 匹配 算法 的 另 一 种 实现 ( 显 式 回 退 ) 
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5.3.3 ”Knuth-Morris-Pratt 子 字符 串 查找 算法 


Knuth Morris 和 Pratt 发 明 的 算法 的 基本 思想 是 当 出 现 不 匹配 时 ,就 能 知晓 一 部 分 文本 的 内 容 ( 因 
为 在 匹配 失败 之 前 它们 已 经 和 模式 相 匹 配 ) 。 我 们 可 以 利用 这 些 信息 避免 将 指针 回 退 到 所 有 这 些 已 
知 的 字符 之 前 。 

举 一 个 具体 的 例子 。 假 设 字母 表 中 只 有 两 个 字符 ， 查 找 的 模式 字符 申 为 BA AAAAAAA 
A 。 现在， 假设 已 经 匹配 了 模式 中 的 5 个 字符 ,第 6 个 字符 匹配 失败 。 当 发 现 不 匹配 的 字符 时 ， 可 
以 知道 文本 中 的 前 6 个 字符 肯定 是 B A A A A B (前 5 个 匹配 , 第 6 个 失败 ) ,文本 指针 现在 指向 
的 是 末尾 的 字符 B。 你 可 以 观察 到 ,这 里 不 需要 回 退 文本 指针 i， 因为 正文 中 的 前 4 个 字符 都 是 A， 
均 与 模式 的 第 一 个 字符 不 匹配 。 另 外 ，i 当前 指向 的 字符 B 和 模式 的 第 一 个 字符 相 匹 配 ， 所 以 可 以 
直接 将 1 加 1， 以 比较 文本 中 的 下 一 个 字符 和 模式 中 的 第 二 个 字符 。 这 说 明 ， 对 于 这 个 模式 ,可 以 
将 暴力 子 字符 串 查找 算法 实现 中 的 else 语句 替换 为 j=1 ( 且 并 不 将 i 加 1) 。 因 为 循环 中 i 的 值 
并 未 变化 ， 这 种 方法 最 多 只 会 进行 N 次 字符 比较 。 这 次 特殊 变化 的 实际 影响 仅 限于 这 种 特殊 情况 ， 
但 这 种 想法 是 值得 思考 的 一 一 Knuth-Morris-Pratt 算法 正 是 这 种 情况 的 一 般 化 。 令 人 惊讶 的 是 ， 在 匹 
配 失败 时 总 是 能 够 将 j 设 为 某 个 值 以 使 i 不 回 退 ,请 见 图 5.3.4。 

在 匹配 失败 时 ， 如 果 模 式 字符 串 中 的 某 处 可 以 和 匹配 失败 处 的 正文 相 匹配 ， 那 么 就 不 应 该 完全 
跳 过 所 有 已 经 匹配 的 所 有 字符 。 例 如 ， 当 在 文本 A A B A A B A A A A 中 查找 模式 AA B A A A 
时 ， 我 们 首先 会 在 模式 的 第 5 个 字符 处 发 现 匹配 失败 ， 但 是 应 该 在 第 3 个 字符 处 继续 查找 ， 否 则 就 
会 错过 已 经 匹配 的 部 分 。KMP 算法 的 主要 思想 是 提前 判断 如 何 重新 开始 查找 ， 而 这 种 判断 只 取决 
于 模式 本 身 。 


i 
EX、 ! 
i A A A 
匹配 失败 之 后 一 一 B A A A A A 一 模式 字符 串 
暴力 子 字符 申 查 B 
找 算法 会 回 退 这 B 
里 并 重新 尝试 再 研一 B 
MB 
再 斌 BAAAAAAAAA 
再 试 
Pe 
需要 回 退 


图 5.3.4 “文本 字符 串 的 指针 在 子 字符 串 查找 中 的 回 退 


5.3.3.1 ”模式 指针 的 回 退 

在 KMP 子 字符 串 查找 算法 中 ， 不 会 回 退 文本 指针 i， 而 是 使 用 一 个 数组 dfa[] [] 来 记录 匹配 
失败 时 模式 指针 j 应 该 回 退 多 远 。 对 于 每 个 字符 c, 在 比较 了 c 和 pat.charAt(j) 之 后 , dfa[c] [j] 
表示 的 是 应 该 和 下 个 文本 字符 比较 的 模式 字符 的 位 置 。 在 查找 中 ，dfs[txt.charAt(i)] [j] 是 在 
比较 了 txt.charAt(i) 和 pat.charAt(j) 之 后 应 该 和 txt.charAt(i+1) 比较 的 模式 字符 位 置 。 
在 匹配 时 会 继续 比较 下 一 个 字符 ， 因 此 dfa[pat.charAt(j)] [j] 总 是 j+1。 在 不 匹配 时 ， 不 仅 可 
以 知道 txt.charAt(i) 的 字符 ， 也 可 以 知道 正文 中 的 前 j-1 个 字符 ， 它 们 就 是 模式 中 的 前 j-1 个 
字符 。 对 于 每 个 字符 c， 你 可 以 将 这 个 过 程 想象 为 首先 将 模式 字符 串 的 一 个 副本 覆盖 在 这 j 个 字符 


之 上 (模式 中 的 前 j-1 个 字符 以 及 字 
符 c 一 一 需要 判断 的 是 当 这 些 字符 就 是 
txt.charAt(i-j+l..i) 时 应 该 怎么 
办 ) ， 然 后 从 左 向 右 滑动 这 个 副本 直到 
所 有 重重 的 字符 都 相互 匹配 (或 者 没有 
相 匹配 的 字符 ) 时 才 停 下 来 。 这 将 指明 
模式 字符 串 中 可 能 产生 匹配 的 下 一 个 
位 置 。 和 txt.charAtCi+1) (dfa[txt. 
charAt(i)] [j]) 比较 的 模式 字符 的 索 
引 正 是 重 全 字符 的 数量 , 请 见 图 5.3.5。 
5.3.3.2 KMP 查找 算法 

只 要 计算 出 了 dfa[] [] 数组 ， 就 
得 到 了 后 面 框 注 所 示 的 子 字符 串 查找 算 
法 : 当 i 和 j 所 指向 的 字符 匹配 失败 时 
(从 文本 的 i-j+1 处 开始 检查 模式 的 
匹配 情况 ) ， 模 式 可 能 匹配 的 下 一 个 位 
置 应 该 从 i-dfa[txt.charAt(i)][j] 
处 开始 。 按 照 算法 ， 从 该 位 置 开始 的 
dfa[txt,charAt(i)] [j] 个 字符 和 模 
式 的 前 dfa[txt.charAt(i)] [j] 个 字 
符 应 该 相同 ， 因 此 无 需 回 退 指针 1， 只 
需要 将 j 设 为 dfa[txt.charAt(i)] [j] 
并 将 1 加 1 即 可 ,这 正 是 当 i 和 j 所 
指向 的 字符 匹配 时 的 行为 。 
5.3.3.3 ”DFA 模拟 

说 明 这 个 过 程 的 一 种 较 好 的 方法 
是 使 用 确定 有 限 状态 自动 机 (DFA ) 。 
事实 上 ， 由 它 的 名 字 你 也 可 以 看 出 ， 
dfa[] [] 数组 定义 的 正 是 一 个 确定 有 限 
状态 自动 机 。 图 5.3.6 显示 确定 有 限 状 
态 自动 机 是 由 状态 (数字 标记 的 圆圈 ) 
和 转换 ( 带 标签 的 箭头 ) 组 成 的 。 模 式 
中 的 每 个 字符 都 对 应 着 一 个 状态 ， 每 个 
此 类 状态 能 够 转换 为 字母 表 中 的 任意 字 
符 。 对 于 子 字符 串 查 找 问题 ， 在 我 们 所 
考虑 的 DFA 中， 这些 转换 中 只 有 一 条 
是 匹配 转换 (从 j 到 j+1， 标 签 为 pat. 
charAt(j) ), 其 他 的 都 是 非 匹 配 转 换 ( 指 
向 左 侧 ) 。 所 有 状态 都 和 字符 的 比较 相 
对 应 ， 每 个 状态 都 表示 一 个 模式 字符 串 
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j pat.charAt(j) dfa[[j] 文本 (也 是 模式 本 身 ) 
A B C ABABAC 
0 A 1 A 
B 
0 ABABAC 
[9 
0 ABABAC 
1 B a 
1 
0 
2 A 3 ABA 
ABB 
0 ABABA! 
ABC 
0 ABA 
3 B 4 
1 
0 
4 A 5 ABABA 
ABABB 
0 ABABAC 
匹配 (继续 检查 下 一 个 ABAB 
字符 ) ， 将 dfa[pat 0 ABABAC 
charAt(j)[j] 设 为 j+1 配 失败 时 
Y C 6 ”ABABAC 的 已 知 文本 
ABABAA” 字符 
1 A BAEA 
ABABAI 
本 配 拓 由 人- ABAB A( 
(模式 指针 加 退 ) t 
回 退 的 距离 是 已 知 文本 字 
符 和 模式 的 最 大 重重 长 度 


图 5.3.5 KMP 子 字符 串 查找 算法 在 处 理 A B A B A 


5 时 模式 指针 的 回 退 


public int search(String txt) 
人 // 模拟 DFA 处 理 文本 txt 时 的 操作 
int 1, j, N = txt. lengthO; 






for (i =0,j=0;1 I jens i 
j = dfa[txt.charAtCi)] Cj]; ls 
if 0j 一 了) return 二 一 MM; // 找到 匹配 


else return N; 


// 未 找到 匹配 


KMP 子 字符 串 查 找 算法 (DFA 模 拟 ) 
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内 部 表示 
j i Ey a GN. 
pat.charAt(j) I 
rr 本: | 避让， 
dfa[][j]lB 0 2 0 /4 0 4 
本 





图 5.3.6 ”和 模式 字符 串 A B A B A C 对 应 的 确定 有 限 状态 自 
动机 


的 索引 值 。 当 我 们 在 标记 为 j 的 状 
态 中 检查 文本 中 的 第 1 个 字符 时 ， 
自动 机 的 行为 是 这 样 的 ，“ 沿 着 转 
换 dfa[txt.charAt(1i)][j] 前 进 并 
继续 检查 下 一 个 字符 (将 i 加 1)。” 
对 于 一 个 匹配 的 转换 ， 就 向 右 移动 
一 位 ， 因 为 dfa[txt.charAt(i)] 
[j] 的 值 总 是 j+1; 对 于 一 个 非 匹配 
转换 ， 就 在 向 左 移动 。 自 动机 每 次 
从 左 向 右 从 文本 中 读 取 一 个 字符 并 
移动 到 一 个 新 的 状态 。 我 们 还 包含 
了 一 个 不 会 进行 任何 转换 的 停止 状 
态 M。 自 动机 从 状态 0 开始 : 如果 
自动 机 到 达 了 状态 M， 那 么 就 在 文 
本 中 找到 了 和 模式 相 匹配 的 一 段子 
字符 串 (我们 称 这 种 情况 为 确定 有 





限 状态 自动 机 识别 了 该 模式 ) ; 如果 自 动机 在 文本 结束 时 都 未 能 到 达 状 态 M， 那么 就 可 以 知道 文本 中 
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人 
读 取 这 些 字符 一 B C B A A B A C A A B A B 
当前 状态 一 0 .0 0 0 11 0 Eg 
转换 到 该 状态 
A 
A 
A 
B 
B 
A 
BS B 
字符 匹配 ， 将 j 设 为 A 


dfa[txt.charAt(i)][j] B 


=dfa[pat.charAt(j)][j] 
=j+1 B 
A 
字符 不 匹配 ， 将 j 设 为 B 
dfa[txt.charAt(i)][j] 
意味 着 将 模式 左 移 并 : 


将 
eh 的 -全 


13 14 15 16 -一 i 
A C A A- 一 txt,charAt(i) 
共生 记 共 7 池 


字符 串 匹 配 ， 
返 加 ~-M=9 


A 
C 
A C 


图 5.3.7 KMP 子 字符 串 查找 算法 处 理 A B A B A C 时 的 轨迹 (DFA 模拟 ) 


要 体验 在 DFA 中 的 子 字符 串 查找 操作 ， 你 可 以 先 想象 一 下 它 所 完成 的 两 件 最 简单 的 任务 。 在 
查找 过 程 的 开始 ， 从 文本 的 开头 进行 查找 ， 起 始 状 态 为 0。 它 停留 在 0 状态 并 扫描 文本 ， 直 到 找到 
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”一 个 和 模式 的 首 字母 相同 的 字符 。 这 时 它 移动 到 下 一 个 状态 并 开始 运行 。 在 这 个 过 程 的 最 后 ， 当 它 
找到 一 个 匹配 时 ， 它 会 不 断 地 匹配 模式 中 的 字符 与 文本 ， 自 动机 的 状态 会 不 断 前 进 直到 状态 M。 图 
5.3.7 所 示 的 轨迹 给 出 了 DFA 运行 的 一 个 典型 例子 。 每 次 匹配 都 会 将 DFA 带 向 下 一 个 状态 (等 价 于 
增 大 模式 字符 串 的 指针 了 ) 5 每 次 匹配 失败 都 会 使 DFA 回 到 较 早 前 的 状态 -( 等 价 于 将 模式 字符 串 的 
指针 j 变 为 一 个 较 小 的 值 ) 。 正文 指针 二 是 从 左 向 右前 进 的 ， 一 次 一 个 字符 ， 但 索引 j 会 在 DFA 
的 指导 下 在 模式 字符 串 中 左右 移动 。 
5.3.3.4 构造 DFA 

现在 你 应 该 已 经 明白 了 DFA 的 原理 ， 接 下 来 解决 XMP 算法 的 关键 问题 ， 如 何 计算 给 定 模式 相 
对 应 的 dfa[] [] 数组 ?意外 的 是 ， 这 个 问题 的 答案 仍然 是 DFA 本 身 ! Knuth、Morris 和 Pratt 发 明 
了 这 种 巧妙 (但 也 相当 复杂 ) 的 构造 方式 。 当 在 pat .charAt(j) 处 匹配 失败 时 ， 和 希望 了 解 的 是 ， 
如 果 回 退 了 文本 指针 并 在 右 移 一 位 之 后 重新 扫描 已 知 的 文本 字符 ，DFA 的 状态 会 是 什么 ? 我 们 其 实 
并 不 想 回 退 ， 只 是 想 将 DFA 重 置 到 适当 的 状态 ， 就 好 像 已 经 回 退 过 文本 指针 一 样 。 765 
这 里 的 关键 在 于 需要 重新 扫描 的 文本 字符 正 是 pat. . 

















charAt(1) 到 pat.charAt(j-1) 之 间 ， 忽 略 了 首 字 母 是 因为 0 
模式 需要 右 移 一 位 ， 忽 略 了 最 后 一 个 字符 是 因为 匹配 失败 。 这 2 B 
些 模式 中 的 字符 都 是 已 知 的 ， 因 此 对 于 每 个 可 能 匹配 失败 的 位 a 

B 


置 都 可 以 预先 找到 重启 DFA 的 正确 状态 。 图 5.3.8 显 示 了 示例 3 A B_A 
中 的 各 种 可 能 性 。 请 务必 理解 这 个 概念 。 

DFA 应 该 如 何 处 理 下 一 个 字符 ? 和 回 退 时 的 处 理 方式 相 。 “ 
同 ， 除 非 在 pat.charAt(j) 处 匹配 成 功 ， 这 时 DFA 应 该 前 
进 到 状态 j+1。 例如， 对 于 A B A B A C， 要 判断 在 j=5 时 匹 
配 失败 后 DFA 应 该 怎么 做 。 通过 DFA 可 以 知道 完全 回 退 之 后 村 
算法 会 扫描 BA BA 并 达到 状态 3， 因此 可 以 将 dfa[][3] 复 。 图 538 计 和 BABAC 的 
制 到 dfa[][5] 并 将 5 所 对 应 的 元 素 的 值 设 为 6， 因 为 pat. 
charAt(5) 是 5 (匹配 ) 。 因 为 在 计算 DFA 的 第 j 个 状态 时 只 需要 知道 DFA 是 如 何 处 理 前 j_1 个 
字符 的 ， 所 以 总 能 从 尚 不 完整 的 DFA 中 得 到 所 需 的 信息 。 

计算 中 最 后 一 个 关键 细节 是 ， 你 可 以 观察 到 在 处 理 dfa[] [] 的 第 j 列 时 维护 重启 位 置 X 很 容易 。 
因为 X<j， 所 以 可 以 由 已 经 构造 的 DFA 部 分 来 完成 这 个 任务 一 xX 的 下 一 个 值 是 dfa[pat.charAtGj)] 
[9。 继 续 上 一 段 中 的 例子 ， 将 X 的 值 更 新 为 dfa['C"] [3]=0 ( 但 我 们 不 会 使 用 这 个 值 ， 因 为 DFA 的 


wm clu e 





口 


构造 已 经 完成 了 ) 。 
由 以 上 的 讨论 可 以 得 到 右 侧 框 注 这 段 短小 精 悍 的 
A dfa[pat.charAt(0)][0] = 1; 
代码 来 构造 给 定 模式 的 DFA。 对 于 每 个 j， 它 将 会 : ls ne 过 ee 
口 将 dfa[] [X] 复制 到 dfa[] [j] (对 于 匹配 失败 { // 计算 dfa[][j] 
的 情况 ) ; for (int c= 0; c < Ri c++) 
: 于 dfa[c][j] = dfa[c][X]; 
口 将 dfa[pat.charAt(j)][j] 设 为 j+1 (对 于 dfa[pat-charAt(j)][j] = j+1; 
匹配 成 功 的 情况 ) ; X = dfa[pat.charAt(j)][X]; 
口 更 新 X。 1 


图 5.3.9 显示 了 这 段 代码 处 理 样 例 输 入 的 轨迹 。 为 
了 确保 你 能 完全 理解 它 , 请 完成 练习 5.3.2 和 练习 5.3.3。 
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图 5.3.9 KMP 子 字符 串 查找 算法 中 模式 ABABAC 的 DFA 的 构造 


算法 5.6”Knuth-Morris-Pratt 字符 串 查找 算法 





public class KMP 


{ 


private String pat; 
private int[][] dfa; 
public KMPCString pat) 
{ // 由 模式 字符 囊 构造 DFA 
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this.pat = pat; 
int M = pat. length(); 
int R = 256; 
dfa = new int[R][M]; 
dfa[pat. charAt(0)] [0] = 1; 
for (int X= 0, j= 1; j <M; j++) 
{ // 计算 dfa[][j] - 
for (int c= 0;c <R; ct) 


dfa[c][j] = dfa[c][X]; ” // 复制 匹配 失败 情 况 下 的 值 
dfa[pat. charAtCj)][j] = j+1; // 设置 区 配 成 功 情况 下 的 什 
X = dfa[pat.charAtCj)l[X]; // 更 新 重启 状态 


} 


public int searchCString txt) 
{ // 在 txXt 上 模拟 DFA 的 运行 
int i, j, N= txt,length(), M = pat.length(); 
for (i=0,j=0;i<Nes ji <M ir) 
j = dfa[txt.charAt(i)][j]; 
if (j == MW return i - M; // 找到 匹配 (到 达 模 式 字 符 于 的 结 ) 
else return N; // 未 找到 匹配 ( 到 达 文本 字符 事 的 结尾 ) 


‘public static void main(String[] args) 
// 请 见 表 5.3.1 
长 


该 Knuth-Morris-Pratt 子 字 符 串 查找 
算法 的 实现 的 构造 丽 数 根据 模式 字符 申 YJ om Aad ancnamaaCwona Wl 
构造 了 一 个 确定 有 限 状态 自动 机 , 使用。 pattern: MMW ' 
search() 方法 在 给 定 文本 字符 串 中 查找 有 
模式 字符 中。 它 和 暴力 子 字符 申 查 找 算法 的 功能 相同 ， 但 带 适合 查找 自我 重复 性 的 模式 字符 申 。 








算法 5.6 实现 了 表 5.3.1 所 示 的 API。 


国 


表 5.3.1 子 字符 串 查找 的 API 
public class KMP 
KMP(CString pat) 根据 模式 字符 申 pat 创建 一 个 DFA 
int search(String txt) 在 txt 中 找到 pat 的 出 现 位 置 





你 可 以 在 下 页 框 注 中 看 到 KMP 的 一 个 典型 的 测试 用 例 。KMP 的 构造 函数 会 根据 模式 字符 串 创 
建 一 个 DFA 并 用 search 方法 中 在 给 定 的 文本 中 查找 该 模式 字符 申 。 
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我 们 还 需要 引入 另 一 个 参数 ， 即 字母 表 的 大 小 R， 所 以 构造 DFA 所 需 的 总 时 间 ( 和 空间 ) 将 与 

MR 成 正比 。 如 果 在 构造 DFA 时 为 每 个 状态 设置 一 个 匹配 转换 和 一 个 非 匹 配 转换 ( 而 非 指向 每 个 可 
能 出 现 的 字符 的 多 个 转换 ) ， 那 么 也 可 以 去 掉 参 数 R， 但 构造 过 程 会 更 加 复杂 一 些 。 

KMP 算法 为 最 坏 情况 提供 的 线性 级 别 

运行 时 间 保 证 是 一 个 重要 的 理论 成 果 。 在 


i id main(Stril 
pe” static void main(String[] args) 实际 应 用 中 ， 它 比 暴力 算法 的 速度 优势 并 


Sr nga etn 不 十 分 明显 ， 因 为 极 少 有 应 用 程序 需要 在 
tring txt = args[1]; 

KMP knp ~ new KMPCpat); 重复 性 很 高 的 文本 中 查找 重复 性 很 高 的 村 
Stdout.println(” 3 ; 一 7 
人 式 。 但 该 方法 的 一 个 优点 是 不 需要 在 答 人 
StdOut .printC"pattern: "); 中 回 退 。 这 使 得 KMP 子 字符 中 查找 算法 更 
rt 适合 在 长 度 不 确定 的 输入 流 ( 例如 标准 输 

StdOut.print(" "); > E 
Stdout .printlnCpat); 入 ) 中 进行 查找 ,需要 回 退 的 算法 在 这 种 


} 情况 下 则 需要 复杂 的 缓冲 机 制 。 但 其 实 当 
回 退 很 容易 时 ， 还 可 以 比 KMP 快 得 多 。 下 
KMP 子 字符 趾 查 找 算法 的 测试 用 例 面 ， 我 们 来 学 习 一 种 利用 回 进来 获取 巨大 

性 能 收益 的 算法 。 


5.3.4 ”Boyer-Moore 字符 串 查找 算法 

当 可 以 在 文本 字符 串 中 回 退 时 ， 如 果 可 以 从 志向 去 扫 并 模式 字符 由 并 将 它 和 文本 匹配 ,: 那么 就 
能 得 到 一 种 非常 快 的 字符 串 查找 算法 。 例 如 ， 在 查找 子 字符 串 B-A A B B A A 时 ， 如 果 号 配 了 第 
七 个 和 第 六 个 字符 ,但 在 第 5 个 字符 处 匹配 失败 ， 那 马上 就 可 以 将 模式 向 右 移动 7 个 位 置 并 继续 检 
查 文本 中 的 第 14 个 字符 。 这 是 因为 部 分 匹配 找到 了 X A A 而 X 不 是 B， 而 这 3 个 连续 的 字符 在 模 
式 中 是 唯一 的 。 一 般 来 说 ， 模 式 的 结尾 部 分 也 可 能 出 现在 文本 的 其 他 位 置 ， 因 此 和 Knuth-Morris- 
Pratt 算法 一 样 ， 也 需要 一 个 记录 重启 位 置 的 数组 。 本 节 不 会 再 次 详细 介绍 它 的 构造 方法 ， 因为 它 和 
Knuth-Morris-Pratt 算法 中 的 实现 很 相似 。 和 Boyer 和 Moore 给 出 的 另 一 一 种 从 右 向 左 扫描 模 
式 字符 串 的 更 有 效 的 方法 。 

和 KMP 子 字符 串 查 找 算法 的 实现 一 样 ， 我 们 人 根据 夺取 失 由 时 六 二 和 澳 式 中 的 守 符 来 决定 下 

- 步 的 行动 。 而 预 处 理 步 又 的 目的 在 于 判断 对 于 文本 中 可 能 出 现 的 每 一 个 字符 ， 在 匹配 失败 时 算法 

应 该 怎么 办 。 将 这 个 想法 变 为 现实 就 可 以 得 到 一 种 高 效 实用 的 子 字符 串 查找 算法 。 
5.3.4.1 启发 式 的 处 理 不 匹配 的 字符 

请 看 图 5.3.10， 它 显示 了 在 文本 F I ND I NAHAYSTACKNEEDLE 中 查找 模 
式 N E E D [上 E 的 过 程 。 因 为 是 从 右 向 左 与 模式 进行 匹配 ， 所 以 首先 会 比较 模式 字符 串 中 的 E 和 
文本 中 的 N ( 位 置 为 5 的 字符 ) 。 因 为 N 也 出 现在 了 模式 字符 串 中 ， 所 以 将 模式 字符 串 向 右 移 动 5 
个 位 置 ， 将 文本 中 的 字符 N 和 模式 字符 串 中 (最 左 侧 ) 的 N 对齐 。 然 后 比较 模式 字符 串 最 右 侧 的 E 
和 文本 中 的 5 (位 置 在 第 10 个 字符 ) ， 匹 配 失败 。 但 因为 S 不 包含 在 模式 字符 串 中 ， 所 以 可 以 将 
模式 字符 串 向 右 移动 6 个 位 置 。 此 时 模式 字符 串 最 右 侧 的 E 和 文本 中 位 置 为 16 的 E 相 匹配 ， 但 我 “ 
们 发 现 文本 的 下 一 个 ( 位 置 为 15 的 ) 字符 为 N， 匹 配 再 次 失败 。 于 是 和 第 一 次 一 样 ， 将 模式 字符 串 
再 次 向 右 移动 5 个 位 置 。 最 后 ， 从 位 置 20 处 开始 从 右 向 左 扫 描 ， 发 现 文本 中 含有 与 模式 匹配 的 子 
字符 串 。 这 种 方法 找到 匹配 位 置 仅 用 了 4 次 字符 比较 ( 以 及 6 次 比较 来 验证 匹配 ) ! 
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21 22 23 





返回 i=15 
图 5.3.10 从 右 向 左 的 (BoyerMoore) 子 字符 串 查找 中 的 启发 式 地 处 理 不 匹配 的 字符 


5.3.4.2 起 点 
要 实现 启发 式 的 处 理 不 匹配 的 字符 ， 我 们 A 
使 用 数组 right[] 记录 字母 表 中 的 每 个 字符 在 1 
模式 中 出 现 的 最 靠 右 的 地 方 ( 如 果 字 符 在 模式 
中 不 存在 则 表示 为 -1 ) 。 这 个 值 揭示 了 如 果 该 
字符 出 现在 文本 中 且 在 查找 时 造成 了 一 次 匹配 
失败 ， 应 该 向 右 跳跃 多 远 。 要 将 right[] 数组 
初始 化 ， 普 先 将 所 有 元 素 的 值 设 为 -1， 然后 对 。 i"” _ 和 
于 0 到 M-1 的 j, 将 right[pat.charAt(j)] NM -1 -1 
设 为 j, 如 图 5.3.11 对 模式 NEEDLE 的 处 N -1 0 0 
理 所 示 。 et 二 
5.3.4.3 子 字符 串 的 查找 图 5.3.11 Boyer-Moore 算法 中 的 跳跃 表 的 计算 
在 计算 完 right[] 数组 之 后 ， 算 法 5.7 的 
实现 就 很 简单 了 。 我 们 用 一 个 索引 1 在 文本 中 ! 
从 左 向 右 移动 ， 用 另 一 个 索引 j 在 模式 中 从 右 
向 左 移动 。 内 循环 会 检查 正文 和 模式 字符 串 在 可 以 所 - 张 类 
位 置 1 是否 一 致 。 如 果 从 M-1 到 0 的 所 有 jj， 将 增加 j+11 似 于 KMP 算 法 的 
txt,charAt(i+j) 都 和 pat.charAt(j) 相等 ， 上 “一 表格 将 i 变 得 更 大 
那么 就 找到 了 一 个 匹配 。 和 否则 匹配 失败 ， 就 会 
过 到 以 下 三 种 情况 。 将 重要 为 M-1 1 
2 图 53.12 启发 式 的 处 理 不 匹配 的 字符 (不 匹配 的 
字符 串 中 ， 将 模式 字符 串 向 右 移动 j+1 本 - 
个 位 置 (即将 十 增加 j+1) 。 小 于 这 个 ee 
偏 移 量 只 可 能 使 该 字符 与 模式 中 的 某 个 字符 重叠。 事实 上 ， 这 次 移动 也 会 将 模式 字符 囊 前 面 
一 部 分 已 知 的 字符 和 模式 结尾 的 一 部 分 已 知 字符 对 齐 。 通 过 预先 计算 一 张 类 似 于 KMP 算法 
的 表格 ,还 可 以 将 i 值 变 得 更 大 ( 请 见 图 5.3.12 ) 。 
口 如 果 造 成 匹配 失败 的 字符 包含 在 模式 字符 串 中 ， 那 就 可 以 使 用 right[] 数组 来 将 模式 字符 
_ 串 和 文本 对 齐 ,- 使 得 该 字符 和 它 在 模式 字符 串 中 出 现 的 最 右 位 置 相 匹 配 。 和 刚才 一 样 ， 小 于 
“这 个 偏 移 量 只 可 能 使 该 字符 和 模式 中 的 与 它 无 法 匹配 的 字符 ( 比 它 出 现 的 最 右 位 置 更 靠 右 的 
字符 ) 重要 。 我 们 可 以 用 一 张 类 似 于 KMP 算法 的 表格 将 i 变 得 更 大 。 如 图 5.3.13 所 示 。 
“号 如果 这 种 方式 无 法 增 大 i， 那 就 直接 将 i 加 1 来 保证 模式 字符 串 至 少 向 右 移 动 了 一 个 位 置 : 
图 5.3.13 下 方 的 例子 说 明了 这 种 情况 - 
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算法 5.7 简明 地 实现 了 这 个 过 程 。 
请 注意 ,使 用 -1 表示 right[] 数组 中 
相应 字符 不 包含 在 模式 字符 串 中 ， 这 个 
约定 能 够 将 前 两 种 情况 合并 (将 i 增 大 
j-right[txt.charAt(i+j)] ) 。 

完整 的 Boyer-Moore 算法 预计 算 了 
模式 字符 串 与 自身 的 不 匹配 情况 (和 
KMP 算法 的 方式 类 似 了 ) 并 为 最 坏 情况 
提供 了 线性 级 别 的 运行 时 间 保 证 (而 算 
法 5.7 在 最 坏 情况 下 的 运行 时 间 与 NM 
成 正比 一 请 见 练习 5.3.19) 。 我 们 在 
这 里 省 略 了 算法 的 计算 ， 因 为 在 一 般 的 
应 用 程序 中 对 不 匹配 字符 的 启发 式 处 理 
已 经 可 以 控制 算法 的 性 能 。 








基本 思想 i ee] 
nm ee ， 
有 下 下 有 
+t 
i 
将 i 增 大 j-right['N'] 来 i 
i 
~ NL . 
os HEEDLE 
将 J 于 村 M1 
* 启发 式 方法 没有 起 作用 的 情况 
3 + | 
ER 
NB "EE 下 由 胡 全 
wt 
a 了 
如 果 将 文本 和 模式 最 右 端的 E 
对 齐 则 会 将 模式 字符 串 向 左 移动 让 
y NE EV:L.E 
wea 
因此 只 能 将 i 加 1 到 本 将 i 变 得 更 大 
| E a 
NE 二 Di 
+ 
: 将 j 重 要 为 M-1 3 
图 53.13 “启发 式 的 处 理 不 匹配 的 字符 (不 匹配 的 字符 包含 
.二 在 模式 字符 串 中 ) 





算法 5.7 Boyer-Moore 字符 串 匹配 算法 〈 启 发 式 地 处 理 不 匹配 的 字符 ) 


public class BoyerMoore 
{ d 
private int[] right; 
private String pat; 
-BoyerMoore(String pat) 
{ // 计算 跳跃 表 - E 
this.pat = pat; 
“int M = pat.lengthOi 
int R = 256; 
right = new int[R]; 


外 即 跳 路 表 。 一 一 译 者 注 
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for (int c= 0; c<Ri ct+) 


right[c] = -1; // 不 包 合 在 模式 字符 囊 中 的 字符 的 值 为 -1 
for (int j = 0; j < M; j++) // 包含 在 模式 字符 事 中 的 字符 的 值 为 
right[pat.charAt(j)] = j; // 它 在 其 中 出 现 的 最 右 位 置 


public int search(String txt) 
{ // 在 txt 中 查找 模式 字符 囊 
int N = txt.lengthO; 
int M = pat.length(); 
int skip; 
for (int 1 = 0; i <= N-M; i += skip) 
{ // 模 式 字符 串 和 文本 在 位 置 1 匹配 吗 ? 
Skip = 0; 
for Cint j = M-1; j >= 0; j--) 
~ if (pat.charAt(j) != txt.charAt(i+j)) 
{ 
skip = j - rightr[txt,charAtCi+j)]; 
if (skip < 1) skip = 1; 
break; 
} 
放 (skip 一 0) return i; ， ，// 找到 匹配 
3 
return N; ~ 1/ 未 找到 匹配 
sy 
pubjic static void main(String[] args) // 请 见 表 5.3.1 
} | 上 
这 段子 字符 串 查找 算法 的 实现 的 构造 函数 根据 模式 字符 串 构造 了 一 张 每 个 字符 在 模式 中 出 现 的 最 右 
位 置 的 表格 。 查 找 算法 会 从 右 向 左 扫描 模式 字符 申 ， 并 在 匹配 失败 时 通过 跳 牙 将 文本 中 的 字符 和 它 在 模 
式 字符 串 中 出 现 的 最 右 位 置 对齐 。 





5.3.5 “RabinKarp 指纹 字符 串 查找 算法 
M.O.Rabin 和 R.A.Karp 发 明了 一 种 完全 不 同 的 基于 散 列 的 字符 串 查找 算法 。 我 们 需要 计算 模式 


“字符 申 的 散 列 函数 ， 然 后 用 相同 的 散 列 函 数 计算 文本 中 所 有 可 能 的 M 个 字符 的 子 字符 囊 散 列 值 并 


寻找 匹配 。 如 果 找到 了 一 个 散 列 值 和 模式 字符 串 相同 的 子 字符 串 ， 那 么 再 继续 验证 两 者 是 否 匹配 。 
这 个 过 程 等 价 于 将 模式 保存 在 一 张 散 列表 中 ， 然 后 在 文本 的 所 有 子 字符 串 中 进行 查找 。 但 不 需要 为 
散 列表 预 留任 何 空间 ， 因 为 它 只 会 含有 一 个 元 素 。 根 据 这 段 描述 直接 实现 的 算法 将 会 比 暴力 子 字符 
串 查 找 算法 慢 很 多 ( 因为 计算 散 列 值 将 会 涉及 字符 串 中 的 每 个 字符 ， 成 本 比 直接 比较 这 些 字符 要 高 
得 多 ) 。Rabin 和 Karp 发 明了 一 种 能 够 在 常数 时 间 内 算出 M 个 字符 的 子 字符 串 散 列 值 的 方法 ( 需 
要 预 处 理 ).， 这 样 就 得 到 了 在 实际 应 用 中 的 运行 时 间 为 线性 级 别 的 字符 串 查找 算法 。 
5.3.5.1 基本 思想 
发 度 为 M 的 字符 串 对 应 着 一 个 R 进 制 的 M 位 数 。 为 了 用 一 张大 小 为 Q 的 上 列表 来 保存 过 各 关 
的 键 , 需要 一 个 能 够 将 R 进 制 的 M 位 数 转化 为 一 个 0 到 Q-1 之 间 的 int 值 散 列 函数 。 除 留 余数 法 (请 
见 3.4 节 .) 是 一 个 很 好 的 选择 : 将 该 数 除 以 Q 并 取 余 。 春 实际 应 用 中 会 使 用 一 个 随机 的 素数 Q， 在 不 
- 溢出 的 情况 下 选择 一 个 尽 可 能 大 的 值 。 因为 我 们 并 不 会 真 的 需要 一 张 散 列表 。 ) 理解 这 个 方法 最 
简单 的 办 法 就 是 取 一 个 较 小 的 Q 和 R=10 的 情况 ,: 如 下 所 示 。 要 在 文本 3 1 4 1 5 9 2 6 5 3 5 8 








722 
773 
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9 7 9 3- 中 找到 模式 2. 6 5 3 5. 首先 要 选择 散 列 表 的 大 小 Q ( 在 这 个 例子 中 是 997 ) ， 则 散 列 值 为 
26535 % 997 = 613， 然 后 计算 文本 中 所 有 长 度 为 5 个 数字 的 子 字符 串 的 散 列 值 并 寻找 匹配 。 在 这 个 
例子 中 , 在 找到 613 的 匹配 之 前 , 得 到 的 散 列 值 分 别 为 508、 201、715、971、442 和 929, 请 见 图 5.3.14。 
-pat.charAt(j) 二 > 
Fn 
3 


txt.charAt(i) 





12345678 9101112131415 
3 和 5 和 2 
的 0 :3 1 4 175 %997:= 508 
sa: 1 415 9 %997-=201 
池 4 1:5 9.:2.% 997 = 715 
= Dt 1-5 9 2 6 %997= 971 
i 5:9 752..6 5 %997 = 442 
EE CE 


6 到 126 22653 5 %997=-613 
图 5.3.14 Rabin-Karp 字符 串 查找 算法 的 基本 思想 
5.3.5.2 ”计算 散 列 函数 


对 于 5 位 的 数值 ， 只 需 使 用 int 值 即 可 ” 
i a 
完成 所 有 所 需 的 计算 。 但 如 果 MM 是 100 或 者 。 yy 9 Con 





1000 怎么 办 ? 这 里 使 用 的 是 Homer 方法 ， Go by 和 Pr 

它 和 3.4 节 中 见 过 的 用 于 字符 串 和 其 他 多 值 he CR * h + key.charAtCj)) % Qi 
类 型 的 键 的 计算 方法 非常 相似 , 代码 如 下 面 return h; 
框 注 所 示 。 这 段 代码 计算 了 用 char 值 数组 表 

示 的 R 进 制 的 M 位 数 的 散 列 函数 ， 所 需 时 间 Horner 方 法 , 用 于 除 留 余数 法 计算 散 列 值 


与 M 成 正比 。( 将 M 作 为 参数 传递 给 该 方法 ， 

这 样 就 可 以 将 它 同时 用 于 模式 字符 串 和 正文 。 ) 对 于 这 个 数 中 的 每 一 位 数字 ， 将 散 列 值 乘 以 R， 加 
上 这 个 数字 ， 除 以 Q 并 取 其 余数 。 例 如 ， 这 样 计算 示例 模式 字符 串 散 列 值 的 过 程 如 图 5.3.15 所 示 。 
我 们 也 可 以 用 同样 的 方法 计算 文本 中 的 子 字符 串 散 列 值 ， 但 这 样 一 来 字符 串 查找 算法 的 成 本 就 将 是 
对 文本 中 的 每 个 字符 进行 乘法 、 加 法 和 取 余 计算 的 成 本 之 和 。 在 最 坏 情况 下 这 需要 NM 次 操作 ， 相 
对 于 暴力 子 字符 串 查 找 算法 来 说 并 没有 任何 改进 。 


pat.charAt(j) 

和 交 史 光 和 

Ss 

% 997 = 2 沙 2 

6 % 997 =-(2*10 + 6) % 997 = 26 

6 5 % 997 = (26*10 + 5) % .997 = 265 

6 5 3 % 997 =.(265*10 + 3) % 997 = 659 

6 5 3 5 %-997 = (659*10 + 5).% 997 = 613 


图 5.3.15 使 用 Homer 方 法 计算 模式 字符 囊 的 散 列 什 
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5.3.5.3 关键 思想 

Rabin-Karp 算法 的 基础 是 对 于 所 有 位 置 1+， 高 效 计算 文本 中 i+1 位 置 的 子 字符 串 散 列 值 。 这 可 
以 由 一 个 简单 的 数学 公式 得 到 。 我 们 用 表示 txt.charAt(i)， 那 么 文本 txt 中 起 始 于 位 置 i 的 
含有 M 个 字符 的 子 字符 串 所 对 应 的 数 即 为 : 

XR Hs RHR 
假设 已 知 hej=x; mod 0。 将 模式 字符 串 右 移 一 位 即 等 价 于 将 x, 替换 为 : 
TR JR+tirty 

即将 它 减 去 第 一 个 数字 的 值 ， 乘 以 R， 再 加 上 最 后 一 个 数字 的 值 。 现 在 ， 关 键 的 一 点 在 于 
不 需要 保存 这 些 数 的 值 ， 而 只 需要 保存 它们 除 以 2 之 后 的 余数 。 取 余 操作 的 一 个 基本 性 质 是 如 
果 在 每 次 算术 操作 之 后 都 将 结果 除 以 @ 并 取 余 ， 这 等 价 于 在 完成 了 所 有 算术 操作 之 后 再 将 最 后 
的 结果 除 以 2 并 取 余 。 曾 经 在 用 Horner 方 法 ( 请 见 3.1.1.4 节 ) 实现 除 留 余数 法 时 利用 过 这 个 
性 质 。 这 么 做 的 结果 就 是 无 论 M 是 5、100 还 是 1000， 都 可 以 在 常数 时 间 内 高 效 地 不 断 向 右 一 74 








格 一 格 地 移动 。 775| 
5.3.5.4 实现 

根据 以 上 讨论 可 以 立即 得 到 算法 58 中 对 该 _ 1... 234567... 
子 字符 串 查找 算法 的 实现 。 构 造 两 数 为 模式 字 el 4 lf 3 : 2 > 文本 


符 串 计算 了 散 列 值 pathash 并 在 变量 RM 中 保 


存 子 R' mod 0 的 值 。hashSearchQ 方法 开 4 1 5 9 2 当前 什 

- 头 计算 了 文本 的 前 M 个 字母 的 散 列 值 并 将 它 和 5 0 00 ee 
模式 字符 品 的 散 列 值 进行 比较 。 如 果 未 能 匹配 ， 1 5 9 2 减 去 第 一 个 数字 的 值 

它 将 会 在 文本 中 继续 前 进 ， 用 以 上 讨论 的 方法 1 
计算 由 位 置 站 开始 的 MM 个 字符 的 散 列 值 ; 将 它 4 6 加 上 新 的 未必 数字 
保存 在 txtHash 变量 中 并 将 每 个 新 的 散 列 值 和 2 

patHash 进行 比较 ， 请 见 图 5.3.16 和 图 5.3.175 图 53.16 Rabin Ka 字 御 刘 找 和 法 中 的 关键 

(在 txtHash 的 计算 中 ,额外 加 上 了 一个 @ 来 计算 (在 文本 中 右 移 一 位 ) 
保证 所 有 的 数 均 为 正 ， 这 样 取 余 操作 才能 够 得 

到 预期 的 结果 。) 


5.3.5.5 小 技巧: 用 蒙特 卡 洛 法 验证 正确 性 
在 文本 txt 中 找到 散 列 值 与 模式 字符 囊 相 匹配 的 一 个 后 不 字符 的 于 字符 电 之 后 ， 你 可 能 会 逐 
个 比较 它们 的 字符 以 确保 得 到 了 一 个 匹配 而 非 相同 的 散 列 值 。 我 们 不 会 这 么 做 ， 因 为 这 需要 回 退 文 台 


_” 本 指针 。 作 为 替代 ， 这 里 将 散 列表 的 “规模 ” 吃 设 为 任意 大 的 一 个 值 ， 因 为 我 们 并 不 会 真 构造 一 张 


散 列表 而 只 是 希望 用 模式 字符 串 验证 是 否 会 产生 冲突 。 我 们 会 取 一 个 大 于 10% 的 1ong 型 值 ， 使 得 
一 个 随机 键 的 散 列 值 与 模式 字符 串 冲突 的 概率 小 于 10”。 这 是 一 个 极 小 的 值 。 如 果 它 还 不 够 小 ; 你 
可 以 将 这 种 方法 运行 两 这 ， 这 样 失败 的 几率 将 会 小 于 10“。 这 是 蒙特 卡 洛 算法 一 种 著名 早期 应 用 ， 
它 既 能 够 保证 运行 时 间 ， 失 败 的 概率 又 非常 小 。 检 查 匹配 的 其 他 方法 可 能 很 慢 (性 能 有 很 小 的 概率 
相当 于 暴力 算法 ) 但 能 够 确保 正确 性 。 这 种 算法 被 称 为 拉 斯 维 加 斯 算法 。 
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i 01234567891011213115 
= 

0 3%997 -3 y 
1 3 1 %997= (3*10+ 1) %997 = 31 
了 3 1 4 % 997 = (31*10 + 4) % 997 = 314 
3 3 1 4 1 %997= (314*10 +1) %997= 150 
4 人 
5 1415 9%997-((508+3*(997 - 30)9*1df + 9) % 997 = 201 
6 4 1 5 9 2 %997= C201+ 1*(997 - 30))*10 + 2) % 997 = 715 
7 1 5 9 2 6 %997= (C15 +4*(997 - 30))*10 + 6) % 997 = 971 

"3 -5 9 2 6 5 %997 ~ ((971 + 1*(997 - 30))*10 + 5) % 997 = 442 FE 本 
9 9 2 6 5 3 %997= (C442+5*(997 - 30))*10 + 3) % 997 = 929 | 
10 -一 返回 i-M+1=6 265 3 5 %997= (929+9*997 - 30))*10 + 5) % 997 = 613 





图 5.3.17 Rabin-Karp 子 字符 串 查 找 算法 举例 


算法 5.8 ”Rabin-Karp 指纹 字符 串 查找 算法 





public class Rabinkarp 


{ 


private String pat; // 模式 字符 事 〔 仅 拉 斯 维 加 斯 算法 需要 ) 
private long patHash; // 模式 字符 囊 的 散 列 值 
private int M; // 模式 字符 束 的 长 度 
private long Q; // 一 个 很 大 的 素数 
private int R = 256; // 字母 表 的 大 小 
private long RM; // RAGN-D %Q 
public RabinKarp(String pat) 
this.pat = pat; // 保存 模式 字符 事 〔 仅 拉 斯 维 加 斯 算法 需要 ) 
this.M = pat. length(); 
Q = longRandomprime(); // 请 见 练习 5.3.33 
RM = 1; 
for (int 1 = 1; 1 <= M-1; i++)  // 计算 RAC(M-1) % Q 
RM = (CR * RM) % Qi; // 用 于 减 去 第 一 个 数字 时 的 计算 
patHash = hash(pat, M); 
要 


public boolean checkCint i) // 繁 特 卡 洛 算法 (请 见 正文 ) 
{ return true; 】 // 对 于 拉 斯 维 加 斯 算法 ， 检查 模式 与 txt(i, ,ii-M+l) 的 匹配 
private long hash(String key, int M) 
// 请 见 正文 
private int search(String txt) 
{ [LV 在 文本 中 查找 相等 的 散 列 值 
int N = txt.lengthO; 
Tong txtHash = hashCtxt, M); 
证 (patHash -== txtHash&&ckeck《0)) return 0;  // 一 开始 就 匹配 成 功 
for Cint 1 = Mi 1 < N; i++) 
长 /1 碱 去 第 一 个 数字 ， 加 上 和 最 后 一 个 数字 ， 再 次 检查 匹配 
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txtHash = (txtHash + Q - RM*txt.charAt(i-M) % Q) % Q; 
txtHash = (txtHash*R + txt.charAt(i)) % Q; 
if (patHash 一 txtHash) 


if (check(i - M+ 1)) return i - M+ 1; // 找到 匹配 


} 
return N; // 未 找到 匹配 


} 
} 


该 字符 串 查找 算法 的 基础 是 散 列 。 它 在 构造 函数 中 计算 了 模式 字符 串 的 散 列 值 并 在 文本 中 查找 该 散 
列 值 的 匹配 。 





命题 P。 使 用 蒙特 卡 治 算法 的 Rabin-Karp 子 字符 囊 查找 算法 的 运行 时 间 是 线性 级 别 的 且 出 错 的 
概率 极 小 。 使 用 拉 斯 维 加 斯 算法 的 Rabin-Karp 子 字符 串 查找 算法 能 够 保证 正确 性 且 性 能 极其 接 
近 线 性 级 别 。 


讨论 。 因 为 我 们 不 需要 实际 创建 一 张 散 列表 ,使 用 非常 大 的 Q 几乎 不 可 能 发 生 散 列 值 冲突 。 
Rabin 和 Karp 证 明了 只 要 选择 了 适当 的 Q 值 ， 随 机 字符 串 产生 散 列 碰撞 的 概率 为 1Q。 这 意味 
着 对 于 这 些 变量 实际 可 能 出 现 的 值 ， 字 符 囊 不 匹配 时 散 列 值 也 不 会 匹配 ， 散 列 值 匹 配 时 字符 串 
才 会 匹配 。 理 论 上 来 说 ， 文 本 中 的 某 个 子 字符 串 可 能 会 在 与 模式 不 匹配 的 情况 下 产生 散 列 冲突 ， 
但 在 实际 应 用 中 使 用 该 算法 寻找 匹配 是 可 靠 的 。 


如 果 你 对 概率 论 ( 或 者 我 们 使 用 的 随机 字符 串 模型 以 及 生成 随机 数字 的 代码 ) 并 不 是 很 有 信心 ， 
那么 可 以 在 checkQ 方法 中 添加 检查 文本 子 字符 串 和 模式 是 否 匹 配 的 代码 。 这 将 把 算法 5.8 变 成 拉 
斯 维 加 斯 版 本 请 见 练习 5.3.12 ) 。 如 果 你 再 添加 一 个 方法 来 检查 这 段 代码 是 否 真正 被 执行 过 ， 随 
着 时 间 的 推移 你 就 会 逐渐 相信 概率 论 的 证 明了 。 

Rabin-Karp 字符 串 查找 算法 也 称 为 指纹 字符 串 查找 算法 , 因为 它 只 用 了 极 少 量 信息 就 表示 了 (可 
能 非常 大 的 ) 模式 字符 串 并 在 文本 中 寻找 它 的 指纹 ( 散 列 值 ) 。 算 法 的 高 效 性 来 自 于 对 指纹 的 高 效 
计算 和 比较 。 


5.3.6 总 结 
表 5.3.2 总 结 了 我 们 已 经 讨论 过 的 各 种 子 字符 串 查找 算法 。 尽 管 常常 出 现 多 个 算法 都 能 完成 相 
同 的 任务 的 情况 , 但 它们 都 各 有 特点 : 暴力 查找 算法 的 实现 非常 简单 且 在 一 般 的 情况 下 都 工作 良好 ; 
(Java 的 String 类 型 的 index0f() 方法 使 用 的 就 是 暴力 子 字符 串 查找 算法 。 ) Knuth-Morris-Pratt 
算法 能 够 保证 线性 级 别 的 性 能 且 不 需要 在 正文 中 回 退 ; Boyer-Moore 算法 的 性 能 在 一 般 情况 下 都 是 亚 
线性 级 别 ( 可 能 是 线性 级 别 的 M 倍 ) ; Rabin-Kamp 算法 是 线性 级 别 。 每 种 算法 也 各 有 缺点 : 暴力 查 
找 算法 所 需 的 时 间 可 能 和 MN 成 正比 ; Knuth-Morris-Pratt 算法 和 Boyer-Moore 算法 都 需要 额外 的 内 存 
空间 ; Rabin-Karp 算法 的 内 循环 很 长 ( 若干 次 算术 运算 ， 而 其 他 算法 都 只 需要 比较 字符 ) 。 这 些 特点 
都 总 结 在 了 表 5.3.2 中 。 
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( 续 ) 
:. - 表 5.3.2 各 种 字符 串 查找 算法 的 实现 的 成 本 总 结 EE 
本 操作 次 数 
算 这 法 版 此 -情况 一 般 情况 在 文本 中 回 退 正确 性 额外 的 空间 需求 
暴力 算法 ee > 二 -是 1 
完整 的 DFA 和 
2N LN 否 是 MR 
沪 auth-Monris-Pratt “《 算 法 5.6) 党 人 
算法 仅 构造 不 匹配 的 状态 转换 3N LIN- 理 是 M 
完整 版 本 3N NM 是 是 - R 
Boyer-Moore 算法 多 MN NM 是 是 R 
' 蒙特 卡 洛 算法 .一 & 了 
Rabin-Karp 算 法” 《算法 5.8) a 和 再 和 e 
[9 拉 斯 维 加 斯 算法 7 My 是 是 1 
次 ， 概 站 保证， 需要 使 用 均匀 和 独立 的 散 到 函数 。 ll 


图 答 奈 
问 “ 子 字符 串 查找 问题 看 起 来 并 没有 什么 实际 用 处 ， 我 们 真 的 需要 理解 这 些 复杂 的 算法 吗 ? 
答 志 这 个 … 和 | Boyer-Moore 算法 能 够 将 速度 提高 M 倍 ， 在 实际 应 用 当中 还 是 相当 强大 的 。 另 外 ， 能 够 处 
理 流 输入 无 需 回 退 ) 的 性 质 也 给 KMP 算法 和 Rabin-Kam 算法 带 来 了 许多 应 用 。 除 了 这 些 直接 的 
， 实 际 应 用 之 外 ， 这 些 算法 也 为 我 们 介绍 了 抽象 自动 机 和 随机 性 在 算法 设计 领域 的 应 用 。 
间 “为 什么 不 能 通过 将 所 有 字符 都 转换 为 二 进 制 数 并 处 理 二 进 制 的 文本 来 简化 问题 呢 ? 
780] … 答 .这 种 方法 并 没有 什么 效果 ， 因 为 字符 的 边界 处 可 能 产生 错误 的 匹配 。 
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5.3.1 使 用 算法 5.6 相同 的 API， 开 发 一 个 暴力 子 字符 串 查找 算法 的 实现 Brute。 

5.3.2 在 Knuth-Morris-Pratt 算法 中 ， 给 出 模式 A A A A A A A A A 的 dfa[][] 数组 ,按照 正文 中 的 样 
式 画 出 DFA。 

5.3.3 在 Knuth-Morris-Pratt 算法 中 ， 给 出 模式 A B R A C A D A B R A 的 dfa[][] 数组 ,按照 正文 中 
的 样式 画 出 DFA。 

5.3.4 “编写 一 个 方法 ， 接 受 一 个 字符 串 txt 和 一 个 整数 M 作 为 参数 ， 返 回 字符 串 中 M 个 连续 的 空格 第 一 
次 出 现 的 位 置 ， 如 果 不 存在 则 返回 txt .Tength。 估 计 你 的 方法 在 一 般 的 文本 中 和 在 最 坏 情况 下 
所 需 的 字符 比较 次 数 。 

5.3.5 ”开发 一 个 暴力 子 字符 申 查找 算法 的 实现 BruteForceRL， 从 右 向 左 匹配 模式 字符 串 〈 算 法 5.7 的 简 
化 版 本 ) 。 

5.3.6 给 出 算法 5.7 的 构造 函数 计算 模式 AB R A C A D A B R A 所 得 到 的 right[] 数组 。 

5.3.7 ”为 暴力 于 字符 串 查 找 算法 的 实现 添加 一 个 count() 方法 ， 统 计 模式 字符 串 在 文本 中 的 出 现 次 数 ， 
再 添加 一 个 searchA110 方法 来 打印 出 所 有 出 现 的 位 置 。 

5.3.8 ”为 KMP 类 添加 一 个 countQ 方法 来 统计 模式 字符 串 的 在 文本 中 的 出 现 次 数 ， 再 添加 一 个 
searchA11() 方法 来 打印 出 所 有 出 现 的 位 置 。 


5.3 子 字符 串 查找 号 511 


5.3.9 为 BoyerMoore 类 添加 一 个 count () 方法 来 统计 模式 字符 串 的 在 文本 中 的 出 现 次 数 ， 再 添加 一 个 
searchA11() 方法 来 打印 出 所 有 出 现 的 位 置 。 
5.3.10 为 RabinKarp 类 添加 一 个 count O 方法 来 统计 模式 字符 串 的 在 文本 中 的 出 现 次 数 ， 再 添加 一 个 
searchA11() 方法 来 打印 出 所 有 出 现 的 位 置 。 
5.3.11 为 算法 5.7 实现 的 Boyer-Moore 算法 构造 一 个 最 坏 情况 下 的 输入 ( 说 明 它 的 运行 时 间 不 是 线性 级 
别 的 ) 。 
5.3.12 为 RabinKarp 类 (算法 5.8 ) 的 check() 方法 中 添加 代码 , 将 它 变 为 使 用 拉 斯 维 加 斯 算法 的 版 本 ( 检 
查 给 定位 置 的 文本 和 模式 字符 串 是 否 匹 配 ) 。 
5.3.13 在 算法 5.7 实现 的 Boyer-Moore 算法 中 ,证 明 当 c 为 模式 字符 串 中 的 最 后 一 个 字符 时 ， 能 够 将 
right[c] 设 为 c 在 模式 字符 串 中 的 倒数 第 二 次 出 现 的 位 置 。 
5.3.14 使 用 char[] 代替 String 来 表示 文本 和 模式 字符 串 , 给 出 本 节 中 的 各 种 子 字符 串 查找 算法 的 实现 。 
5.3.15 设计 一 个 从 右 向 左 扫描 模式 字符 串 的 暴力 子 字符 串 查 找 算法 。 
5.3.16 按照 正文 中 轨迹 的 样式 显示 暴力 子 字符 串 查找 算法 在 处 理 以 下 模式 和 文本 时 的 轨迹 。 
a. 模式 : AAAAAAAB 文本 : AAAAAAAAAAAAAAAAAAAAAAAAB 
b. 模式 : ABABABAB 文本 : ABABABABAABABABABAAAAAAAA 
5.3.17 ”为 以 下 模式 字符 串 画 出 KMP 算法 的 DFA。 
a. AAAAAAB 
b. AACAAAB 
c.ABABABAB 
d ABAABAAABAAAB 
e.ABAABCABAABCB 
5.3.18 ”假设 模式 字符 串 和 文本 都 是 由 大 小 为 R_( 不 小 于 2 ) 的 字母 表 随 机 生成 的 字符 串 。 证 明 暴力 算法 
预期 的 字符 比较 次 数 为 (N-M+1)(1-R*Y(1-R"') < 2(N-M+1)。 
5.3.19 构造 一 个 使 Boyer-Moore 算法 ( 仅 使 用 对 不 匹配 字符 的 启发 式 查找 ) 性 能 低下 的 样 例 输入 。 
5.3.20 如何 修改 Rabin-Karp 算法 才能 够 判定 人 个 模式 ( 假设 它们 的 长 度 全 部 相同 ) 中 的 任意 子 集 出 现 
在 文本 之 中 ? 
解答 : 计算 所 有 上 个 模式 字符 串 的 散 列 值 并 将 散 列 值 保存 在 一 个 StringSET( 请 见 练习 5.2.6 ) 对象 中 。 
5.3.21 ”如 何 修改 Rabin-Karp 算法 来 查找 中 间 字 符 为 “通配符 ” ( 能 够 匹配 任意 字符 的 符号 ) 的 模式 字 
符 串 ? 
5.3.22 如何 修改 Rabin-Karp 算法 来 在 Nx N 的 文本 中 查找 一 个 万 x 上 的 模式 ? 
5.3.23 编写 一 个 程序 ， 一 次 读 人 字符 串 中 的 一 个 字符 并 立即 判断 当前 字符 串 是 否 为 回 文 。 提 示 ; 使 用 
Rabin-Karp 的 散 列 思想 。 
图 提高 是 
5.3.24 找 出 所 有 子 字符 事 。 为 我 们 学 习 过 的 4 种 字符 串 查找 算法 添加 一 个 findA110) 方法 ， 返 回 一 个 
Iterable<Integer> 对 象 使 得 用 例 能 够 遍历 文本 中 模式 字符 串 出 现 的 所 有 位 置 。 
5.3.25 流 输 入 。 为 KMP 类 添加 一 个 search() 方法 ， 接 受 一 个 In 类 型 的 变量 作为 参数 ， 在 不 使 用 其 


他 任何 实例 变量 的 条 件 下 在 指定 的 输入 流 中 查找 模式 字符 串 。 为 Rabinkarp 类 也 添加 一 个 类 似 
的 方法 。 
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5.3.26 回环 变 位 。 编 写 一 个 程序 、 对 于 给 定 的 两 个 字符 囊 ， 检 查 它们 是 否 互 为 对 方 的 回环 变 位 。 例 如 
example 和 ampleex。 局 
”5.3.27 申 联 重复 查找 。 在 字符 串 s 中 ， 基 础 字符 串 的 串联 重复 就 是 连续 将 b 至 少 重复 两 遍 (无 重 蚕 ) 
-的 一 个 子 字符 串 。 开 发 并 实现 一 个 线性 时 间 的 子 字符 串 查找 算法 ， 接 受 给 定 的 字符 串 b 和 s， 返 
回 s 中 b 的 最 长 申 联 重复 的 起 始 位 置 。 例 如 , 当 b 为 “abed” 而 s 为 “abcabeababcababcababcab " 时， 
你 的 程序 应 该 返回 3。 SE 
5.3.28 暴力 子 字符 囊 查 找 算法 中 的 缓冲 区 。 向 你 为 练习 53.1 给 出 的 解答 中 添加 一 个 search() 方法 ， 
接受 一 个 (In 类 型 的 ) 输入 流 作为 参数 并 在 给 定 的 输入 流 查 找 模式 字符 串 。 注 意 :你 需要 维护 
一 个 至 少 能 够 保存 输入 流 的 前 M 个 字符 的 缓冲 区 。 面 临 的 挑战 是 要 编写 高 效 的 代码 为 任意 输入 
流 初始 化 、 更 新 和 清理 缓冲 区 。 
5.3.29 Boyer-Moore 算法 中 的 缓冲 区 。 为 算法 5.7 添加 一 个 search() 方法 ， 接 受 一 个 (In 类 型 的 ) 输 
入 流 作为 参数 并 在 给 定 的 输入 流 中 查找 模式 字符 串 。 
5.3.30 二 维 查 找 。 实 现 另 一 个 版 本 的 Rabin-Karp 算法 ， 在 二 维 文本 中 查找 模式 ， 假 设 模式 和 文本 都 是 
由 字符 组 成 的 矩形 : 
5.3.31 .随机 模式 。 在 一 段 给 定 的 文本 中 查找 一 个 长 度 为 100 的 随机 模式 字符 串 需 要 多 少 次 字符 比较 ? 
答 ; 一 次 也 不 用 。 以 下 方法 就 可 以 有 效 的 完成 这 个 任务 : 
public boolean search(char[] txt) 
{ return false; } 
因为 一 个 长 度 为 100 的 随机 模式 字符 串 出 现在 任何 文本 中 的 概率 之 低 足 以 让 我 们 认为 它 是 0。 
78 相 5.3.32 唯一 的 子 字符 事 。 使 用 Rabin-Karp 算法 的 思想 完成 练习 5.2.14。 
5.3.33 随机 素数 。 为 Rabinkarp 类 (算法 58) 实现 
TongRandomPrime() 方法 。 提 示 : 随机 的 ”位 数 
字 是 素数 的 概率 与 /m 成 正比 。 i 
5.3.34 ”直线 型 代码 。?Java 的 虚拟 机 ( 以 及 计算 机 上 的 汇 s0: if (txt[i]) 
编 语言 ) 支持 一 种 goto 指令 ， 它 使 我 们 能 够 将 查 号 :下 Ct 人 
找 “ 嵌 人 ”到 机 器 代码 中 , 如 下 方 的 程序 所 示 《这 s3: if (txt[i]) 1= ‘A' goto s2; 
段 程序 等 价 于 在 KMP 算法 中 用 KMPdfa 数组 模拟 5 J Ces》 1 A goto 3 
模式 的 DFA 的 运行 ， 但 效率 要 高 的 多 ) 。 为 了 和 避 return 1-8; 
免 在 每 次 增 大 1 时 检查 是 否 已 经 到 达 文本 的 结尾 ， 
假设 文本 的 最 后 M 个 字符 就 是 模式 字符 趾 本 身 。 ”处 理 模式 字符 四 A A 日 人 A A 的 直线 型 代码 
在 这 段 代 码 中 goto 的 标签 与 dfa[] 数组 完全 一 一 对 应 。 编 写 一 个 静态 方法 ， 接 受 一 个 模式 作为 
参数 ， 产 生 一 段 类 似 的 直线 型 代码 来 查找 给 定 的 模式 。 
5.3.35 二 进 制 字符 囊 中 的 Boyer-Moore 算法 s 启发 式 处 理 不 匹配 的 字符 对 于 二 进 制 字符 串 并 没有 什么 作 
用 ， 因 为 匹配 失败 的 可 能 字符 只 有 两 种 ( 而 且 它们 都 非常 可 能 出 现在 模式 字符 串 中 ) 。 编 写 一 个 
适用 于 二 进 制 字符 串 的 子 字符 串 查 找 类 ， 它 应 该 能 够 将 多 个 位 组 合成 可 以 被 算法 57 处 理 的 “ 字 
符 ”。 注意 : 如 果 你 每 次 都 取 b 位 ， 那 么 需要 一 个 含有 个 元 素 的 right[] 数组 。5 的 值 不 能 太 
大 ， 以 保证 right[] 数组 不 会 太 大 ; 也 不 能 太 小 ， 以 使 文本 中 大 多 数 b 位 字符 不 太 可 能 出 现在 模 
式 中 一 模式 中 全 有 M-b+1 种 不 同 的 5 位 字符 ( 从 第 1 到 第 M-b+1 位 的 每 个 位 置 上 各 有 一 个 ) ， 














goto sm; 





人 @ 译 法 参考 《代码 大 全 》, 第 二 版 第 14 章 。 一 一 译 者 注 
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因此 M-b+1 远 小 于 2。 例如 ， 如 果 你 选择 的 5 使 得 2 约 等 于 lg(4A0)， 那 么 right[] 数组 中 超过 
四 分 之 三 的 元 素 的 值 都 将 是 -1。 但 不 要 让 b 小 于 M2， 否 则 当 模 式 字符 串 横 跨 两 个 b 位 字符 时 你 
完全 可 能 会 漏 掉 它 。 


如 
名 


图 实验 亚 


5.3.36 


5.3.37 


5.3.38 
5.3.39 


随机 文本 。 编 写 一 个 程序 ， 接 受 整 型 参数 M 和 N， 生 成 一 个 长 度 为 N 的 随机 二 进 制 文本 字符 串 ， 
计算 该 字符 串 的 最 后 M 位 在 整个 字符 串 中 的 出 现 次 数 。 注 意 : 不 同 的 M 值 适用 的 方法 可 能 不 同 。 
随机 文本 的 KMP 算法 。 编 写 一 个 用 例 ， 接 受 整 型 参数 M、N 和 T 并 运行 以 下 实验 T 遍 : 随机 生 
成 一 个 长 度 为 M 的 模式 字符 串 和 一 段 长 度 为 N 的 文本 ， 记 录 使 用 KMP 算法 在 文本 中 查找 该 模式 
时 比较 字符 的 次 数 。 修 改 KMP 类 的 实现 来 记录 比较 次 数 并 打印 出 重复 T 次 之 后 的 平均 比较 次 数 。 
随机 文本 的 Boyer-Moore 算法 。 对 于 Boyer-Moore 算法 完成 上 一 道 练 习 。 

运行 时 间 。 编 写 一 段 程序 ， 用 本 节 学 习 的 4 种 算法 在 《双城记 》 ( tale.txt ) 中 查找 以 下 字符 串 并 
记录 时 间 : 

it is a far far better thing that i do than i have ever done 


讨论 你 的 结果 在 何 种 程度 上 验证 了 正文 对 这 几 种 算法 的 性 能 猜想 。 786 
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5.4 正则 表达 式 


在 许多 应 用 程序 中 , 我 们 在 查找 子 字符 串 时 并 没有 被 查找 模式 的 完整 信息 。 文本 编辑 器 的 用 户 
可 能 希望 仅 指定 模式 的 一 部 分 ， 或 是 指定 某 种 能 够 匹配 若干 个 不 同 单词 的 模式 ， 或 是 指定 几 种 可 以 
任意 匹配 的 不 同 模式 。 例 如 ， 生 物 学 家 可 能 希望 在 基因 组 序列 中 寻找 满足 特定 条 件 的 基因 。 本 节 中 ， 
我 们 将 会 学 习 如 何 高 效 地 完成 这 种 类 型 的 模式 匹配 。 

5.3 节 中 的 算法 完全 依赖 指定 完整 的 模式 字符 串 ， 因 此 需要 寻找 不 同 的 方法 。 本 节 将 会 学 习 的 


”一 些 基本 工具 能 够 构造 一 个 非常 强大 的 字符 串 查找 程序 ， 它 能 够 在 长 度 为 N 的 文本 中 匹配 长 度 为 M 


的 复杂 模式 。 在 最 坏 情况 下 ， 它 所 需 的 时 间 和 MN 成 正比 ， 而 在 一 般 的 应 用 程序 中 还 会 快 得 多 。 
首先 ， 我 们 需要 一 种 描述 模式 的 方法 ， 即 一 种 严谨 的 说 明 上 述 “ 部 分 子 字符 串 的 查找 问题 ”的 


方式 。 这 份 说 明 必须 含有 一 些 比 5.3 节 中 使 用 的 “检查 文本 字符 串 的 第 i 个 字符 和 模式 字符 串 的 第 


j 个 字符 是 否 匹 配 ”更 加 强大 的 原始 操作 。 为 此 ， 我 们 使 用 正则 表达 式 。 它 能 够 用 自然 、 简 单 而 强 
大 的 3 种 操作 组 合 来 描述 模式 。 
程序 员 使 用 正则 表达 式 的 历史 已 经 有 数 十 年 了 。 随 着 网 络 搜索 的 爆炸 性 增长 ， 它 们 的 使 用 变 得 


。 更 加 广泛 。 本 节 开 始 会 讨论 儿 个 应 用 程序 。 这 不 仅 是 为 了 让 你 感受 它 的 用 途 和 功能 ;也 是 为 了 让 你 


对 它 的 基本 性 质 更 加 熟悉 。 
和 5.3 节 中 的 KMP 算法 一 样 ， 本 节 也 将 使 用 一 种 能 够 在 文本 中 查找 模式 的 抽象 自动 机 来 描述 


” 这 3 种 基本 的 操作 。 模 式 匹配 算法 同样 会 构造 一 个 这 样 的 自动 机 并 模拟 它 的 运行 。 当 然 ， 这 种 模式 ，. 


匹配 自动 机 比 KMP 算法 的 DFA 更 加 复杂 ， 但 不 会 超出 你 的 想象 

你 将 会 看 到 ， 我 们 为 模式 匹配 问题 给 出 的 解答 和 计算 机 科学 中 最 基础 的 问题 有 着 紧密 的 联系 。 
例如 ， 我 们 在 程序 中 用 于 完成 给 定 模式 下 的 字符 串 查找 任务 的 算法 和 Java 系统 中 用 来 将 Java 程序 
转化 为 计算 机 上 的 机 器 语言 的 算法 很 相似 。 我 们 还 会 遇 到 非 确定 性 这 个 概念 。 它 在 人 们 对 高 效 算法 
的 追求 中 起 到 了 关键 的 作用 (请 见 第 6 章 ) 。 上 


”5.4.1 使 用 正则 表达 式 描述 模式 


我 们 的 重点 是 模式 的 描述 ， 它 由 3 种 基本 操作 和 作为 操作 数 的 字符 组 成 。 这 里 ， 我 们 用 语言 指 


“ 代 一 个 学 符 趾 的 集合 〈 可 能 是 无 限 的 ) ， 用 模式 指 代 一 种 语言 的 详细 说 明 。 我 们 将 要 学 习 的 规则 和 


大 家 都 很 熟悉 的 算术 表达 式 中 的 规则 十 分 类 似 。 
5.4.1.1 “连接 操作 | 

第 二 种 基本 操作 就 是 5.3 节 中 使 用 过 的 连接 操作 。 当 我 们 写 出 AB 时 ， 就 指定 了 一 种 语言 {AB}。 
它 含有 一 个 由 两 个 字符 组 成 的 字符 串 ， 由 A 和 B 连接 而 成 。 
5.4.1.2” 或 操作 

第 二 种 基本 操作 可 以 在 复式 中 指定 多 和 可 能 的 匹配 。 如 打 我 们 在 出 选 择 之 间 指 定 了 一个 或 运 
算 符 ; 那么 它们 都 将 属于 同一 种 语言 。 我 们 用 坚 线 符号 “|” 表示 这 个 操作 。 例 如 ，A1B 指定 的 语言 
是 {A,B},.AlEITIOIU 指定 的 语言 是 {A,E,I,0,U}。 连接 操作 的 优先 级 高 于 或 操作 ， 因此 AB1BCD 
指定 的 语言 是 TAB,BCD}。 
5.4.1.3， 闭 包 操作 

第 三 种 基本 操作 可 以 将 模式 的 部 分 重复 任意 的 次 数 。 模式 的 半 包 是 由 将 模式 和 自身 连接 任意 多 
次 (包括 零 次 ) 而 得 到 的 所 有 字符 串 所 组 成 的 语言 。 我 们 将 “*” 标 记 在 需要 被 重复 的 模式 之 后 ; 
以 表示 闭 包 。 闭 包 操作 的 优先 级 高 于 连接 操作 ， 因 此 AB* 指定 的 语言 由 一 个 A 和 0 个 或 多 个 B 的 字 
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符 串 组 成 ， 而 A*B 指定 的 语言 由 0 个 或 多 个 A 和 一 个 B 的 字符 串 组 成 。 空 字符 囊 的 记号 是 E， 它 存 
在 于 所 有 文本 字符 串 之 中 (包括 A* ) 。 
5.4.1.4 括号 

我 们 使 用 括号 来 改变 默认 的 优先 级 顺序 : 例如 ，C(AC1B)D 指定 的 语言 是 {CACD ,CBD}，(AI1C) 
《〈(B1C)D) 指定 的 语言 是 {ABD,CBD,ACD,CCD}，(CAB)* 指定 的 语言 是 由 将 AB 连接 任意 多 次 得 到 的 
所 有 字符 串 和 空 字符 串 组 成 的 {e,AB,ABAB, . . .} 

这 些 简单 的 例子 已 经 可 以 写 出 虽然 复杂 但 却 清晰 而 完整 的 描述 某 种 语言 的 正 风 表 这 区 了 (示例 
请 见 表 5.4.1 ) 。 某 些 语言 可 能 可 以 用 其 他 方式 简单 表述 ， 但 找到 这 些 简单 的 方法 可 能 会 比较 困难 。 
例如 ， -表格 的 最 后 一 行 中 的 正则 表达 式 指定 的 就 是 (CAIB)* AA B 的 子 集 。 


表 54 和 全 “正则 表达 式 举例 
匹配 的 字符 串 
ACADBCBD 
“ AD ABD ACD ABCCBD 
AAA BBAABB BABAAA 





正则 表达 式 
CAIB) CCID) 
ACBIO*D 

A* | (A*BA*BA*)* 

















正则 表达 式 都 是 非常 简单 的 形式 请 言 对 银 ， 甚至 比 你 在 小 学 里 学 到 的 算术 表达 式 更 简单 。 我 们 
将 会 利用 它 的 简洁 性 开发 小 巧 而 高 效 的 算法 来 处 理 它们 。。 首先 给 出 如 下 正式 定义 。 





。 这 段 定义 描述 了 正则 表达 式 的 语法 ， 说 明了 怎样 才 是 一 个 合法 的 正则 表达 式 。 在 本 节 中 对 给 定 
正则 表达 式 的 非 形式 化 的 描述 是 它 的 语义 。 作 为 复习 ， 我 们 要 继续 在 形式 定义 中 对 它们 进行 总 结 。 
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。。 口 由 -个 正则 表达 式 的 闭 包 所 表示 的 字符 串 的 集合 由 E ( 空 字符 向): 
达 去 所 表示 的 字符 齐集 合 重复 任意 次 所 得 到 的 所 有 字符 囊 所 组 成。 





一 般 来 说 ， 给 定 正则 表达 式 所 描述 的 语言 可 能 非常 庞大 ， 甚 至 是 无 限 的 。 描 述 一 种 语言 可 以 有 
许多 中 不 同 的 方法 ， 我 们 必须 尝试 给 出 最 简洁 的 模式 ， 就 像 在 不 断 地 尝试 写 出 简洁 的 程序 和 实现 高 
效 的 算法 一 样 。 


5.4.2” 缩 略 写法 

一 般 的 应 用 程序 都 在 基本 规则 的 基础 上 增加 了 各 种 额外 的 规则 ， 以 力求 简洁 地 描述 实际 应 用 中 
所 需要 的 语言 。 从 理论 角度 来 看 ， 它 们 都 只 是 涉及 多 个 操作 数 的 一 系列 操作 的 缩 略 写法 ;从 实际 角 
度 来 看 ， 它 们 是 对 基本 操作 的 实用 扩展 ， 以 便 能 够 写 出 小 巧 的 模式 。 
5.4.2.1 字符 集 描述 符 

只 用 一 个 或 几 个 字符 来 直接 表示 一 个 字符 集 时 常 能 够 带 来 方便 。 点 “.” 是 一 个 能 够 表示 任意 
字符 的 通配符 。 包 含 在 方 括号 中 的 一 系列 字符 表示 这 些 字符 中 的 任意 一 个 。 这 一 系列 字符 可 以 由 一 
个 范围 来 表示 。 如 果 开 头 字符 为 “^”， 这 个 方 括号 表示 的 就 是 任意 非 该 括号 内 的 字符 。 这 些 记 法 
都 是 一 系列 或 操作 的 简写 ， 请 见 表 5.4.2。 


表 5.4.2 字符 集 描述 符 





名 称 记 法 举例 

通配符 4 AB 

指定 的 集合 包含 在 口中 的 字符 [AEIOU]* 

范围 集合 包含 在 口中 ,由 “-” 分 卫 [A-Z] [0-9] 

补 集 包含 在 品 中 ， 首 字母 为 “^” [^AEIOU]* 
5.4.2.2 闭 包 的 简写 


闭 包 运 算 符 表示 将 它 的 操作 数 复制 任意 多 次 。 在 实际 应 用 中 ， 我 们 希望 能 够 灵活 指定 重复 的 次 
数 , 或 者 是 次 数 的 范围 。 我们 用 “+”( 加 号 ) 表示 至 少 复制 一 次 ,“?”( 问号 ) 表示 重复 0 次 或 1 次 ， 
用 写 在 “{}”( 花 括号 ) 内 的 数 或 者 范围 来 指定 重复 的 次 数 。 和 刚才 一 样 ， 这 些 记 法 也 是 一 系列 基 
本 的 连接 、 或 和 闭 包 操作 的 简写 ， 请 见 表 5.4.3。 


表 5.4.3 闭 包 的 简写 (指定 操作 数 的 重复 次 数 ) 








选 项 记 法 举例 原始 写法 语言 中 的 字符 素 不 在 语言 中 的 字符 串 
至 少 重复 1 次 + (AB)+ (AB) (AB)* AB ABABAB € BBBAAA 
重复 0 或 1 次 ? (AB)? ElAB EAB 所 有 其 他 字符 串 
重复 指定 次 数 由 全 指定 次 数 (AB){3} (AB)(AB)(AB) ABABAB 所 有 其 他 字符 申 
重复 指定 范围 的 次 数 。 由 {) 指定 范围 Ca CN 1CAB) ~ AB ABAB 所 有 其 他 字符 串 
5.4.2.3” 转 义 序列 


某 些 字符 , 例如 “”、“.”、“|”、“*”、“(“ 和 ”) ”, 都 是 用 来 构造 正则 表达 式 的 元 字 
符 。 我 们 使 用 以 反 斜 杠 开头 的 转 义 序列 来 将 元 字符 和 字母 表 中 的 字符 区 别 开 来 。 一 个 转 义 序列 可 以 
是 一 个 “” 加 上 单个 元 字符 (这 就 表示 这 个 字符 本 身 ) 。 例 如 ，“\” 表 示 的 就 是 “'”。 其 他 转 义 
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序列 表示 了 特殊 字符 和 空白 字符 。 例 如 ，“\t” 表 示 一 个 制 表 符 ，“\n” 表 示 一 个 换行 符 ，“\s” 表 
示 任 意 空 白字 符 。 


5.4.3 ”正则 表达 式 的 实际 应 用 

实际 应 用 已 经 证 明了 正则 表达 式 善于 描述 与 语言 有 关 的 内 容 。 因 此 ， 正 则 表达 式 使 用 广泛 ， 这 
方面 的 研究 也 比较 深入 。 为 了 让 你 能 在 熟悉 正则 表达 式 的 同时 向 你 展示 一 些 它 的 用 途 ， 在 讨论 正则 
表达 式 的 模式 匹配 算法 之 前 先 给 出 一 些 实际 应 用 的 例子 。 正 则 表达 式 在 计算 机 科学 理论 中 也 起 到 了 
重要 的 作用 。 在 本 书 中 完整 说 明 它 的 应 用 范围 不 切实 际 ， 但 会 在 适当 的 地 方 提 到 相关 的 理论 成 果 。 
5.4.3.1 子 字符 串 查找 

我 们 的 总 体 目标 是 开发 一 种 算法 ， 能 够 判定 给 定子 字符 串 是 否 包含 在 给 定 正则 表达 式 所 描述 的 
字符 串 集合 之 中 。 如 果 文本 包含 在 模式 所 描述 的 语言 之 中 ， 就 称 文本 和 模式 相 匹配 。 正 则 表达 式 的 
模式 匹配 一 般 化 了 5.3 节 中 的 子 字符 串 查找 问题 。 准 确 地 说 ， 要 在 一 段 文本 txt 中 查找 一 个 子 字符 
串 pat ， 就 是 检查 txt 是 否 存在 于 模式 “.*pat.*” 所 描述 的 语言 之 中 。 
5.4.3.2 合法 性 检查 

在 使 用 互联 网 时 , 你 常常 会 遇 到 正则 表达 式 。 当 你 在 某 个 商业 网 站 上 输入 一 个 日 期 或 是 账号 时 ， 
输入 处 理 程序 会 检查 输入 的 格式 是 否 正确 。 进 行 这 类 检查 的 一 种 方式 是 用 代码 检查 所 有 可 能 出 现 的 
情况 : 如果 你 应 该 输入 一 个 金额 (美元 ) ， 代 码 就 会 检查 第 一 个 字符 是 否 是 “$”， 而且“$” 之 后 
的 字符 是 否 是 一 组 数字 ， 等 等 。 更 好 的 办 法 是 定义 一 个 正则 表达 式 来 描述 所 有 合法 的 输入 。 之 后 ， 
检查 用 户 的 输入 是 否 合法 就 完全 是 模式 匹配 问题 了 ， 输 入 是 否 包含 在 正则 表达 式 所 描述 的 语言 之 中 
吗 ? 随 着 这 种 检查 的 广泛 应 用 ， 使 用 正则 表达 式 进行 常见 检查 的 库 在 互联 网 上 已 经 随处 可 见 ， 请 见 
表 5.4.4。 一 般 来 说 ， 相 比 一 个 能 够 检查 所 有 情况 的 程序 ， 正 则 表达 式 是 对 所 有 有 效 字符 串 的 集合 更 
加 准确 和 精炼 的 表达 。 


表 5.4.4 正则 表达 式 的 典型 应 用 (简化 版 本 ) 





应 用 场景 正则 表达 式 匹配 
字符 串 查 找 .NEEDLE.* A HAYSTACK NEEDLE IN 
电话 号 码 NM[0-9]{3}NN [0-9]{3}-[0-9]{4} (800) 867-5309 
Java 标识 符 [$_A-Za-z] [$_A-Za-z0-9]* Pattern_Matcher 
基因 组 gcg(cgglagg)*ctg | gcgaggaggcggcggctg 




















791 














电子 邮件 地 址 [a-z]+@([a-z]+\.)+(edu|com) rs@cs.princeton.edu 


5.4.3.3 ”程序 员 的 工具 箱 

正则 表达 式 模 式 匹 配 的 起 源 是 Unix 的 命令 grep， 它 会 打印 出 和 给 定 正则 表达 式 匹 配 的 所 有 输 
信行。 这 个 工具 是 数 代 程 序 员 的 无 价 之 宝 ， 而 正则 表达 式 也 已 经 被 内 置 于 许多 现代 编程 系统 之 中 ， 
从 awk 和 emacs， 到 Perl、Python 和 Javascript。 例 如 ， 某 个 目录 中 含有 许多 java 文件 ， 而 你 希望 
知道 哪些 文件 使 用 了 StdIn。 这 条 命令 可 以 很 快 给 出 答案 : 

% grep StdIn *.java 

它 会 打印 出 每 个 文件 中 与 “*.StdIn.*” 匹 配 的 每 一 行 代码 。 
5.4.3.4 ”基因 组 

生物 学 家 也 会 使 用 正则 表达 式 来 研究 重要 的 科学 问题 。 例 如 ， 人 类 的 基因 序列 的 某 个 区 域 可 以 
用 正则 表达 式 gcg(cg9)*ctg 描述 ， 其 中 模式 cgg 的 重复 次 数 在 不 同 的 个 体 之 间 有 很 大 区 别 。 人 们 
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已 知 某 种 能 够 造成 智力 障碍 和 其 他 一 一 些 症状 的 基因 疾病 和 该 模式 的 高 重复 次 数 有 关 。 

5.4.3.5 搜索 
互联 网 搜索 引擎 都 支持 正则 表达 式 ， 但 可 能 不 是 非常 完整 。 一 般 来 说 ， 如 果 你 希望 通过 “|” 指 

定 其 他 的 匹配 模式 或 者 通过 “*” 产生 重复 , 它 都 能 做 到 。 


5.4.3.6 ”正则 表达 式 的 可 能 性 


理论 计算 机 科学 的 第 一 堂 入 门 课程 就 是 找 出 正则 表达 式 所 能 够 指定 的 语言 集合 。 例 如 ， 你 可 能 
会 感到 意外 的 是 ， 正 则 表达 式 能 够 实现 取 余 操作 : 例如 (0 | 1(01*0)*1)* 描述 的 所 有 由 0 和 1 组 
成 的 字符 囊 都 是 3 的 信 数 的 二 进 制 表 示 ! 也 就 是 说 ,11、110、1001 机 1100 都 在 这 个 语言 之 中 ， 
而 10、1011 和 .10000 都 不 在 。 
5.4.3.7 局 限 ” 

并 不 是 所 有 的 语言 都 可 以 用 正则 表达 式 定义 。 一 个 令 人 深思 的 示例 就 是 不 存在 能 够 描述 所 有 合 


”法 正则 表达 式 字符 串 的 集合 的 正则 表达 式 。 这 个 示例 的 简单 版 本 包括 无 法 使 用 正则 表达 式 检查 括号 


是 否 匹 配 完 整 以 及 检查 字符 串 中 的 A 和 B 的 数量 是 否 一 样 多 。 

这 些 例子 都 只 是 冰山 一 角 。 正 则 表达 式 是 计算 性 基础 设施 中 非常 实用 的 一 部 分 ， 对 于 帮助 我 们 
理解 计算 的 本 质 起 到 了 重要 的 作用 。 a KMP 算法 一 样 ， 下 面 将 要 描述 的 算法 也 是 在 探索 这 个 理论 
过 程 中 的 副产品 。 


“5.4.4“ 非 确定 有 限 状态 自动 机 


我 们 可 以 将 Knuth-Morris-Pratt 算法 看 作 一 台 由 模式 字符 串 构造 的 能 够 扫描 文本 的 有 限 状态 自 
动机 。 对 于 正则 表达 式 ， 我 们 要 将 这 个 思想 推 而 广 之 。 

KMP 的 有 限 状态 自动 机 会 根据 文本 中 的 字符 改变 自身 的 状态 。 当 且 仅 当 自动 机 达到 停止 状态 
时 它 才 找到 了 一 个 匹配 。 算 法 本 身 就 是 模拟 这 种 自动 机 ， 这 种 自动 机 的 运行 很 容易 模拟 的 原因 是 因 


-为 它 是 确定 性 的 : 每 种 状态 的 转换 都 完全 由 文本 中 的 字符 所 决定 。 


要 处 理 正则 表达 式 ， 就 需要 一 种 更 加 强大 的 抽象 自动 机 。 因 为 或 操作 的 存在 ， 自 动机 无 法 仅 根 
据 一 个 字符 就 判断 出 模式 是 否 出 现 ; 事实 上 ， 因 为 闭 包 的 存在 ， 自 动机 甚至 无 法 知道 需要 检查 多 少 
字符 才 会 出 现 匹 配 失败 。 为 了 克服 这 些 困 难 ， 我 们 需要 非 确定 性 的 自动 机 : 当面 对 匹配 模式 的 多 种 
可 能 时 ， 自动 机 能 够 “ 猜 出 ”正确 的 转换 ! 你 也 许 会 认为 这 种 能 力 是 不 可 能 的 ， 但 你 会 看 到 ， 编写 
一 个 程序 来 构造 非 确定 有 限 状态 自动 机 ( NFA ) 并 有 效 模拟 它 的 运行 是 很 简单 的 。 正 则 表达 式 模式 匹 


配 程序 的 总 体 结构 和 KMP 算法 的 总 体 结构 几乎 相同 : 


口 构造 和 给 定 正则 表达 式 相对 应 的 非 确定 有 限 状态 自动 机 ; 

日 模拟 NFA 在 给 定 文本 上 的 运行 轨迹 。 

Kleene 定理 是 理论 计算 机 科学 中 的 一 个 重要 结论 ， 它 证 明 了 对 于 任意 正则 表达 式 都 存在 一 个 与 
之 对 应 的 非 确定 有 限 状态 自动 机 ( 反之 亦 然 ) 。 我 们 会 学 习 该 定理 的 证 明 并 演示 如 何 将 任意 正则 表 


“ 达 式 转变 为 一 台 非 确定 有 限 状 态 自动 机 ， 然 后 模拟 NFA 的 运行 轨迹 来 完成 模式 匹配 任务 。 


- 在 学 习 如 何 构造 模式 匹配 的 NFA 之 前 ， 先 来 看 一 个 示例 ， 它 说 明了 NFA 的 性 质 和 操作 。 请 看 
图 5.4.1， 它 所 显示 的 NFA 是 用 来 判断 一 段 文本 是 否 包含 在 正则 表达 式 (CA*B1AC)D) 所 描述 的 语言 
之 中 。 如 这 个 示例 所 示 ， 我 们 所 定义 的 NFA 有 着 以 下 特点 。 
口 长 度 为 W 的 正则 表达 式 中 的 每 个 字符 在 所 对 应 的 NFA 中 都 有 且 只 有 一 个 对 应 的 状态 。NFA 
的 起 始 状态 为 0 并 含有 一 个 〈 虚拟 的 ) 接受 状态 M。 
口 字母 表 中 的 字符 所 对 应 的 状态 都 有 一 条 从 它 指出 的 边 ， 这 条 边 指向 模式 中 的 下 一 个 字符 所 对 
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应 的 状态 (图 中 的 黑色 的 边 ) 。 

口 元 字符 “(”、“)”、“]"” 和 “*” 所 对 应 的 状态 至 少 含有 一 条 指出 的 边 ( 图 中 的 红色 的 边 )， 
这 些 边 可 能 指向 其 他 的 任意 状态 。 

口 有 些 状态 有 多 条 指出 的 边 ， 但 一 个 状态 只 能 有 一 条 指出 的 黑色 边 。 





图 5.4.1 模式 ((A*B1AC)D) 所 对 应 的 NFA ( 另 见 彩 插 ) 


我 们 约定 将 所 有 的 模式 都 包含 在 括号 中 ， 因 此 NFA 中 的 第 一 个 状态 对 应 的 是 左 括号 ， 而 最 后 
一 个 状态 对 应 的 是 右 括号 ( 并 能 够 转换 为 接受 状态 ) 。 
和 53 节 中 的 DFA 一 样 ， 在 NFA 中 也 是 从 状态 0 开始 读 取 文本 中 的 第 一 个 字符 。NFA 在 状态 的 转 
换 中 有 时 会 从 文本 中 读 取 字符 ， 从 左 向 右 一 次 一 个 。 但 它 和 DFA 有 着 一 些 基 本 的 不 同 ; 
口 在 图 中 ,字符 对 应 的 是 结 点 而 不 是 边 ; 
口 NFA 只 有 在 读 取 了 文本 中 的 所 有 字符 之 后 才能 识别 它 ， 而 DFA 并 不 一 定 需 要 读 取 文本 中 的 
全 部 内 容 就 能 够 识别 一 个 模式 。 
这 些 不 同 并 不 是 关键 一 一 我 们 选择 的 是 最 适合 研究 的 算法 的 自动 机 版 本 。 
现在 的 重点 是 检查 文本 和 模式 是 否 匹配 一 一 为 了 达到 这 个 目标 ， 自 动机 需要 读 取 所 有 文本 并 到 
达 它 的 接受 状态 。 在 NFA 中 从 一 个 状态 转移 到 另 一 个 状态 的 规则 也 与 DFA 不 同一 一 在 NFA 中 状态 
的 转换 有 以 下 两 种 方式 ， 请 见 图 5.4.2。 
口 如 果 当 前 状态 和 字母 表 中 的 一 个 字符 相对 应 且 文本 中 的 当前 字符 和 该 字符 相 匹配 ， 自 动机 可 
以 扫 过 文本 中 的 该 字符 并 ( 由 黑色 的 边 ) 转换 到 下 一 个 状态 。 我 们 将 这 种 转换 称 为 匹配 转换 。 
口 自动 机 可 以 通过 红色 的 边 转换 到 另 一 个 状态 而 不 扫描 文本 中 的 任何 字符 。 我 们 将 这 种 转换 称 
为 E- 转换 ， 也 就 是 说 它 所 对 应 的 “匹配 ”是 一 个 空 字符 串 e。 


A A A A B D 
0 一 1 一 2 产 3 一 2 一 3 一 2 一 3 一 2 一 3 广 4 一 5 一 8 一 9 一 10 一 11 
匹配 转换 :继续 扫描 下 e- 转 换 : 无 匹配 扫描 了 所 有 文本 字符 
一 个 字符 并 改变 状态 时 的 状态 转换 。 ”并 达到 接受 状态 ; NFA 


识别 了 文本 
图 5.4.2 找到 与 ((A*B | AC)D)NFA 相 匹 配 的 模式 ( 另 见 彩 插 ) 


例如 , 假设 输入 为 A A A A B D 并 启动 正则 表达 式 ((A*B1AC)D) 所 对 应 的 自动 机 (起 始 状态 为 0) 。 
图 542 显示 的 一 系列 状态 转换 最 终 到 达 了 接受 状态 。 这 一 系列 的 转换 说 明 输入 文本 是 属于 正则 表达 式 
所 描述 的 字符 串 的 集合 之 中 的 一 一 即 文本 和 模式 相 匹配 。 按 照 NFA 方 式 ,我 们 称 该 NEA 识别 了 这 段 文本 。 

图 5.4.3 的 例子 说 明了 即使 对 于 类 似 于 A A A A B D 这 种 NFA 本 应 该 能 够 识别 的 输入 文本 ， 
也 可 以 找到 一 个 使 NFA 停 灌 的 状态 转换 序列 。 例 如 ， 如 果 NFA 选择 在 扫描 完 所 有 A 之 前 就 转换 到 
状态 4， 它 就 无 法 再 继续 前 进 了 ， 因 为 离开 状态 4 的 唯一 办 法 是 匹配 B。 这 两 个 例子 说 明了 这 种 自 
动机 的 不 确定 性 。 在 扫描 了 一 个 A 并 到 达 状态 3 之 后 ，NFA 面临 着 两 个 选择 : 它 可 以 转换 到 状态 4， 
或 者 回 到 状态 2。 这 次 选择 或 者 会 使 它 最 终 达到 接受 状态 ( 如 第 一 个 例子 所 示 ) 或 者 进入 停滞 (如 
第 二 个 例子 所 示 ) 。NFA 在 状态 1 时 也 需要 进行 选择 (是否 由 e- 转换 到 达 状态 2 或 者 状态 6) 。 
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这 个 例子 说 明了 NEA 和 DFA 之 间 的 关 

_ 键 区 别 : 因为 在 NFA 中 离开 一 个 状态 的 转换 
可 能 有 多 种 ， 因 此 从 这 种 状态 可 能 进行 的 转 
换 是 不 确定 的 一 -即使 不 扫描 任何 字符 ， 它 


在 不 同 的 时 间 所 进行 的 状态 转换 也 可 能 是 不 . 


同 的 。 要 使 这 种 自动 机 的 运行 有 意义 ， 所 设 
想 的 NFA 必须 能 够 猜测 对 于 给 定 的 文本 进行 
哪 种 转换 ( 如 果 有 的 话 ) 才能 最 终 到 达 接受 
状态 。 换 句 话说 ， 当 且 仅 当 一 个 NFA 从 状态 
0 开始 从 头 读 取 了 一 段 文本 中 的 所 有 字符 ， 
进行 了 一 系列 状态 转换 并 最 终 到 达 了 接受 状 
态 时 ， 则 称 该 NFA 识别 了 一 个 文本 字符 串 。 


A A A 
一 1 一 2 一 3 一 2 一 3 一 4 
A 一 ~ 无 法 离开 状 坟 4 


如 果 输 和 为 AAAABD , 
那么 下 一 个 状态 转换 就 猜 错 了 


A 


0 一 6 一 7 无 法 让 开 状态 7 


Nr 
0 一 1 一 2 一 3 一 2 一 3 一 2 一 3 一 2 一 3 一 4、、 无 法 离 
开 状 态 4 


图 5.4.3 使 得 (CA*B|AC)D) 的 NFA 进入 停滞 的 状 
态 转换 序列 


相反 ， 当 且 仅 当 对 于 一 个 NFA 没有 任何 匹配 
.转换 和 €- 转换 的 序列 能 够 扫描 所 有 文本 字符 并 到 达 接 受 状态 时 ， 则 称 该 NFA i 
符 串 。 “ 

和 DFA 一样 ， 这 里 列 出 所 有 状态 的 转换 即 可 跟踪 NFA 处 理 文本 字符 串 的 轨迹 。 任 意 类 似 的 结 
东 于 最 终 状 态 的 转换 序列 都 能 证 明 某 个 自动 机 识别 了 某 个 字符 串 ( 也 可 能 有 其 他 的 证 明 ) 。 但 对 于 
一 自给 定 的 文本 ， 应 该 如 何 找到 这 样 一 个 序列 呢 ? 对 于 另 一 自给 定 的 文本 我 们 应 该 如 何 证 明 不 存在 


[39 ， 这 样 一 个 序列 呢 ? 这 些 问题 的 答案 比 你 想象 的 要 简单 ， 即 系统 地 尝试 所 有 的 可 能 性 ! 


“. 5.4.5 ”模拟 NFA 的 运行 
。 存在 能 够 猜测 到 达 接 受 状态 所 需 的 状态 转换 自动 机 的 设想 就 好 像 能 够 写 出 解决 任意 问题 的 程序 
一 样 : 这 看 起 来 很 荒 雇 。 经 过 仔细 思考 ， 你 会 发 现 这 个 任务 从 概念 上 来 说 并 不 困难 : 我 们 可 以 检查 
所 有 可 能 的 状态 转换 序列 ， 只 要 存在 能 够 到 达 接 受 状态 的 序列 ， 我 们 就 会 找到 它 。 
5.4.5.1 自动 机 的 表示 
首先 ， 需 要 能 够 表示 NFA。 选 择 很 简单 : 正则 表达 式 本 身 已 经 给 出 了 所 有 状态 名 (0 到 M 之 间 
的 整数 ， 其 中 M 为 正则 表达 式 的 长 度 ) 。 用 char 数组 re[] 保存 正则 表达 式 本 身 ， 这 个 数组 也 表 
示 了 匹配 的 转换 ( 如 果 re[i] 存在 于 字母 表 中 ， 那 么 就 存在 一 个 从 i 到 i+1 的 匹配 转换 ) 。6- 转 
换 最 自然 的 表示 方法 当然 是 有 向 图 一 一 它们 都 是 连接 0 到 M 之 间 的 各 个 顶点 的 有 向 边 ( 图 5.4.4 中 
的 红色 边 ) 。- 因 此 ， 我 们 用 有 向 图 G 表示 所 有 €- 转换 。 在 讨论 模拟 的 过 程 之 后 将 讨论 由 给 定 正则 
表达 式 构建 有 向 图 的 任务 。 对 于 上 面 的 例子 ， 它 的 有 向 图 含有 以 下 9 条 边 : 
0 一 11 一 21 一 62 一 33 一 23 一 45 一 88 一 910 一 11 


5.4.5.2_NFA 的 模拟 与 可 达 性 

为 了 模拟 NFA 的 运行 轨迹 ， 我 们 会 记录 自 动机 在 检查 当前 输入 字符 时 可 能 过 到 的 所 有 状态 的 
集合 。 这 里 ， 关 键 的 计算 是 我 们 已 经 熟悉 并 在 算法 4.4 中 解决 的 多 点 可 达 性 问题 。 我 们 会 查找 所 有 
从 状态 0 通过 6e- 转换 可 达 的 状态 来 初始 化 这 个 集合 。 对 于 集合 中 的 每 个 状态 ， 检 查 它 是 否 可 能 与 第 
一 个 输入 字符 相 匹配 。 检 查 并 匹配 之 后 就 得 到 了 NFA 在 匹配 第 一 个 字符 之 后 可 能 到 达 的 状态 的 集合 。 
这 里 还 需要 向 该 集合 中 加 入 所 有 从 该 集合 中 的 任意 状态 通过 €- 转换 可 以 到 达 的 其 他 状态 。 有 了 这 
个 匹配 了 第 一 个 字符 之 后 可 能 到 达 的 所 有 状态 的 集合 ，e- 转换 有 向 图 中 的 多 点 可 达 性 问题 的 答案 就 
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是 可 能 匹配 第 二 个 输入 字符 的 状态 集合 。 例 如 ， 在 示例 NFA 中 初始 状态 集合 为 {0,1,2,3,4,6}， 
如 果 第 一 个 输入 字符 为 A， 那 么 NFA 通过 匹配 转换 可 能 到 达 的 状态 是 {3,7}， 然 后 它 可 能 进行 3 到 
2 或 3 到 4 的 e- 转 换 ， 因 此 可 能 与 第 二 个 字符 匹配 的 状态 集合 为 {2,3,4,7}。 重 复 这 个 过 程 直到 
文本 结束 可 能 得 到 两 种 结果 : 
口 可 能 到 达 的 状态 集合 中 含有 接受 状态 ; 
口 可 能 到 达 的 状态 集合 中 不 含有 接受 状态 。 
第 一 种 结果 说 明 存在 某 种 转换 序列 使 NFA 到 达 接 受 状态 。 第 二 种 结果 说 明 对 于 该 输入 NFA 总 
是 会 停滞 ， 导 致 匹配 失败 。 使 用 我 们 已 经 实现 了 的 SET 数据 类 型 和 用 于 在 有 向 图 中 解决 多 点 可 达 性 ”[797 
问题 的 DirectedDFS 类 ， 下 面 的 NFA 模拟 代码 只 是 翻译 了 刚才 的 描述 。 你 可 以 用 图 5.4.4 检查 你 
对 这 段 代 码 的 理解 ， 它 显示 了 样 例 输入 的 完整 轨迹 。 


0 1 2 3 4 6 : 从 起 始 状态 开始 通过 -转换 能 够 到 达 的 所 有 状态 的 集合 


SB Si a 





3 7 ， 匹配 A 之 后 到 达 的 状态 的 集合 
-mn 4 


pap Rm a sl 


3 ， 匹配 A A 之 后 到 达 的 状态 的 集合 
i 请 窟 以 


PC 


234: 人 和 


| re OO 有 必 OC 人 


5 :匹配 A A B 之 后 到 达 的 状态 的 集合 
0 


a 


©—O 


5 8 9 : 匹配 A A 8 之 后 通过 e- 转 换 能 够 到 达 的 所 有 : 集合 
2 2 


10 ; 匹配 A A B D 之 后 到 达 的 状态 的 集合 


i u 


-名 -的 - 


103: [sag 人 B 和 
Py s 


接受 ! 


图 5.4.4 对 ((A*B1AC)D) 的 NFA 处 理 输入 A A B D 的 模拟 
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命题 @。 判 定 一 个 长 度 为 M 的 正则 表达 式 所 对 应 的 NFA 能 否 识别 一 段 长 度 为 N 的 文本 所 需 的 
时 间 在 最 坏 情况 下 和 MN 成 正比 。 


证 明 。 对 于 长 度 为 N 的 文本 中 的 每 个 字符 ， 我 们 都 会 遍历 一 个 大 小 不 超过 MM 的 状态 集合 并 在 E- 转 
换 的 有 向 图 中 进行 深度 优先 搜索 。 下 面 即将 学 习 的 自动 机 的 构造 可 以 证 明 该 有 向 图 中 的 边 数 不 会 超 
过 2M 条 ， 因 此 每 次 深度 优先 搜索 在 最 坏 情况 下 的 运行 时 间 与 好 成 正比 。 


请 仔细 思考 一 下 这 个 不 同 寻 常 的 结果 。 它 在 最 坏 情况 下 的 成 本 为 文本 和 模式 的 长 度 之 积 ， 这 个 
成 本 和 5.3 节 开 始 时 学 习 的 最 坏 情况 下 寻找 固定 子 字符 串 的 初级 算法 的 成 本 竟然 是 相同 的 ! 


public boolean recognizes(String txt) 
{ // NFA 是 否 能 够 识别 文本 txt? 
Bag<Integer> pc = new Bag<Integer>(); 
DirectedDFS dfs = new DirectedDFS(G, 0); 
for Cint v= 0; v < G.VO; v++) 
if (dfs.marked(v)) pc.add(v); 


for Cint i = 0; i < txt.lengthO; i++) 

{ // 计算 txt[i+1] 可 能 到 达 的 所 有 NFA 汰 态 
Bag<Integer> match = new Bag<Integer>(); 
for (int v : pc) 

放 Cv < 有 
if (re[v] 一 txt.charAt(i) || re[v] == '.') 
match.add(v+1); 
pc = new Bag<Integer>(O); 
dfs = new DirectedDFS(G, match); 
for (int v = 0; v < GVO; v++) 
if (dfs.marked(v)) pc.add(v); 


} 


for (int v : pc) if (v 一 M) return true; 
return false; 


使 用 NFA 模 拟 的 模式 匹配 


”5.4.6 “构造 与 正则 表达 式 对 应 的 NFA 


根据 正则 表达 式 和 大 家 所 熟悉 的 算术 表达 式 的 相似 性 ， 你 肯定 不 会 惊讶 于 将 正则 表达 式 转化 为 
NEFA 的 过 程 在 某 种 程度 上 类 似 于 1.3 节 中 使 用 Dijkstra 的 双 栈 算法 对 表达 式 求 值 的 过 程 。 这 两 个 过 


. 程 的 不 同 之 处 在 于 : 


口 正则 表达 式 中 的 连接 操作 并 没有 运算 符 ; 

口 正则 表达 式 的 闭 包 (* ) 是 一 个 一 元 运算 符 ; 本 

口 正则 表达 式 只 有 一 个 二 元 运算 符 ， 即 或 (|)。 

我 们 不 会 在 两 者 的 不 同和 相似 之 处 深究 ,而 是 会 学 习 一 种 为 正则 表达 式 量 身 定做 的 实现 。 例如， 
这 里 员 需 要 一 个 栈 ， 而 不 是 两 个 。“ SE 

根据 二 一 小 节 开头 讨论 的 NFA 表示 ， 这 里 只 需要 构造 一 个 由 所 有 €- 转换 组 成 的 有 向 图 G。 正 
则 表达 式 本 身 和 本 节 开 头 学 习 过 的 形式 定义 足以 提供 所 需 的 所 有 信息 。 根 据 Dijkstra 的 算法 ， 怕人 
会 使 用 一 个 栈 来 记录 所 有 左 括号 和 或 运算 符 的 位 置 。 > 
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5.4.6.1 “连接 操作 
对 于 NFA， 连 接 操作 是 最 容易 实现 的 了 。 状态 的 匹配 转换 和 字母 表 中 的 字符 的 对 应 关系 就 是 连 
接 操作 的 实现 。 人 二 
5.4.6.2 括号 
我 们 要 将 正则 表达 式 字符 中 中 所 有 左 括号 的 索引 讨 入 术 中 。 每 当 我 们 遇 到 一 个 右 括号 ， 我 们 最 
终 都 会 用 后 文 所 述 的 方式 将 左 括号 从 栈 中 弹出 。 和 Dijkstra 算法 一 样 ， 栈 可 以 很 自然 地 处 理 嵌 套 的 
括号 。 
5.4.6.3 闭 包 操作 
闭 包 运算 符 (* ) 只 可 能 出 现在 0 单个 字符 之 后 (此 时 将 在 该 字符 和 “*” 之 间 添 加 相互 指向 
的 两 条 e- 转换 ) ， 或 者 是 (i 右 括号 之 后 ， 此 时 将 在 对 应 的 左 括号 ( 即 栈 顶 元 素 ) 和 “*” 之 间 添 
加 相互 指向 的 两 条 €- 转换 。 | > 
5.4.6.4 。 “或 ”表达 式 i 
在 形 如 (A1B) 的 正则 表达 式 中 , A 和 B 也 都 是 正则 表达 式 。 我们 的 处 理 方式 是 添加 两 条 €- 转换 ， 
.一 条 从 左 括号 所 对 应 的 状态 指向 B 中 的 第 一 个 字符 所 对 应 的 状态 ， 另 一 条 从 “|" 字符 所 对 应 的 状态 
指向 右 括号 所 对 应 的 状态 。 将 正则 表达 式 字符 趾 中 “|” 运 算 符 的 索引 (以 及 如 上 文 所 述 的 左 括号 的 
索引 ) 压 人 栈 中 ， 这 样 在 到 达 右 括号 时 这 些 所 需 信息 都 会 在 栈 的 顶部 。 这 些 e- 转换 使 得 NFA 能 够 


“7 在 这 两 者 之 间 进 行 选择 。 此 时 并 没有 像 平 常 一 样 添加 一 条 从 “|” 运 算 符 所 对 应 的 状态 到 下 一 个 字符 


所 对 应 的 状态 的 €- 转换 一 一 NFA 离开 “或 ” 运 





a 二 外 和 的 叭 一方 式 就 是 过 某 种 愉 太 针 换 到 让 和 
.QED 括号 所 对 应 的 状态 。 . [wo 
G.addEdgeCi, i+1); 人 这 些 简单 的 规则 足以 构 和 任意 复杂 的 正则 S 
OR 表达 式 所 对 应 的 NFA。 算 法 5.9 实现 了 这 些 规 
闭 包 表达 式 则 。 它 的 构造 函数 创建 了 给 定 正则 表达 式 所 对 


i Sa a 应 的 e- 转换 有 疝 图 。 该 算法 处 理 样 例 的 轨迹 如 
和 近 … > 图 5.4.7 所 示 。 图 5.4.5、 图 5.4.6 和 练习 中 给 出 
i : 了 一 些 其 他 的 例子 ， 我们 也 希望 你 自己 通过 更 
GiaddEdgeCit1, 1p); _ 多 的 示例 加 深 对 这 个 过 程 的 理解 。 为 了 实现 的 
OA -简洁 和 清晰 ， 我 们 将 一 些 实现 细节 (处理 元 字 
eo “ ” 符 、 字 符 集 描 述 符 、 闭 包 的 缩 略 写法 和 多 向 “或 " 
OO DO 过 押 等 ) 入 做 了 练习 (请 见 练习 5416 和 练习 
G.addEdge(1p, or+1); 5.4.21) 。 在 没有 这 些 扩展 的 情况 ，NFA 构造 
SEE ee" 让 1 二 过 程 所 需 的 代码 非常 少 ， 是 我 们 所 见 过 的 最 巧 

图 5.4.5 ”NFA 的 构造 规则 妙 的 算法 之 一 。 


> -6 


54.6 模式 《.*ABCCCID*E)F)*G) 所 对 应 的 NFA 801 





Cr-CRED-O-@ 
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算法 5.9 ”正则 表达 式 的 模式 匹配 (grep) 


public class NFA 





{ 0 a 
private charE] re; // 匹配 转换 
~ private Digraph G; // epsilon 转 提 一 


private int M; // 状态 数量 


public NFACString regexp) He 
{，// 根据 给 定 的 正则 表达 式 构造 NFA es 
Stack<Integer> ops = new Stack<Integer>O; 
= regexp.toCharArrayO); 
= re.length; 
= new Digraph(M+1); 


le rg s rt 





me jnt 请 = 
i if Creri] = | reli] 一 
sh 
当 else if re] = 2) i a 
{ : ; 
int or' = ops.popOi = 2 
if (re[or] 一 "1 
{ 





1p = ops.popO; 
G.addEdge(1p, or+l); 
G.addEdge(or, i); 
} 
else lp = or; 
了 a = = 全 
if G < Ml 好 ren 一 ]] 查看 一 人 村 
Re 2 2 4 
G.addEdgeCp, i#tD; 
G.addEdgeCi+1, 1p); 





机 网 
if (re[i == "O° || refi] 一 || reli] 一 
GiaddEdgeCi, i+1); E 和 
} E 
入 2 > 
public booTean te txt) 


// NFA 是否 能 够 识别 文本 txt? (请 见 5.4.5.2 节 框 注 “ 使 用 NFA 模 拟 的 模式 匹配 ”) 
} 


[Bo 该 构造 琢 数 根据 给 定 的 正则 表达 式 构造 了 对 应 的 NEA 的 E- 转 换 有 向 图 。 
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保存 左 括 0 
号 和 “或 
运算 符 的 、\\ 
索引 的 栈 “|。 > 
0 
i 
J 
SO 一 
有 
: FO 


ee 





ER Sa 





图 5.4.7 “构造 正则 表达 式 〔(A*B1AC)D) 所 对 应 的 NFA 
模式 匹配 的 经 典 用例 GREP 的 代码 如 后 面 框 注 所 示 。 它 接受 一 个 正则 表达 式 为 参数 并 能 够 打印 
出 标准 输入 中 含有 属于 正则 表达 式 所 描述 的 语言 的 子 字符 囊 的 所 有 行 。 这 个 程序 是 Unix 早期 实现 
中 的 一 项 特性 并 已 经 成 为 数 代 程序 员 不 可 缺少 的 工具 。 
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% more tinyL.txt 


AC 
AD 
AAA 
public class GREP ABD 
ADD 
public static void main(String[] args) BCD 
{ ABCCBD 
String regexp = "(.*" + args[0] + ".*)"; BABAAA 
NFA nfa = new NFACregexp); BABBAAA 
while (StdIn.hasNextLine()) 
{ % java GREP "(A*BIAOD" < tinyL. 
String txt = StdIn.hasNextLineO; txt 
if (nfa.recognizes(txt)) ABD 
StdOut.print1n(txt); ABCCBD 


} % java CREP StdIn < GREP.java 
} while (StdIn.hasNextLine()) 
B03 String txt = StdIn. 
. hasNextLineO; 


804) 经 典 的 一 般 正则 表达 式 模 式 匹配 (GREP) NFA 的 用 例 














国 答 用 
问 室 (nul1) 和 € 有 什么 区 别 ? 
答 前 者 表示 一 ， 后 者 表示 一 个 空 字符 囊 。 你 可 以 构造 一 个 只 有 一 个 元 素 € 的 集合 ， 而 显然 这 个 





集合 不 是 空 集 (nu11 ) 。 


转 练 


5.4.1 给 出 能 够 描述 含有 以 下 字符 的 所 有 字符 串 的 正则 表达 式 : 
口 4 个 连续 的 A 
口 最 多 4 个 的 连续 的 A 
口 1 到 4 个 连续 的 A 

5.4.2 ”用 自然 语言 简略 的 描述 以 下 正则 表达 式 : 





a 
b.A.*A | A 
C. . *ABBABBA.* 


di .A.A AsA* 

5.4.3 一 个 使 用 M 个 或 运算 符 且 不 使 用 闭 包 的 正则 表达 式 最 多 能 够 描述 多 少 个 不 同 的 字符 串 ? ( 可 以 使 
用 连接 操作 和 括号 。 ) 

5.4.4” 画 出 模式 (CCA1B)*1CD*1EFG)*)* 所 对 应 的 NFA。 

5.4.5 夯 出 练习 5.4.4 的 NFA 的 E- 转换 有 向 图 。 

5.4.6 对 于 输入 ABBACEFGEFGCAAB， 给 出 练习 5.4.4 的 NFA 中 每 次 匹配 转换 和 6E- 转换 
之 后 可 达 的 状态 集合 。 

5.4.7 将 5.4.6.4 节 框 注 “ 经 典 的 一 般 正则 表达 式 模式 匹配 (GREP ) NFA 的 用 例 ” 中 的 GREP 修改 为 
GREPmatch， 将 模式 用 括号 包 庄 起 来 但 不 在 模式 两 端 加 上 “.*”。 这 样 程序 就 只 会 打出 属于 给 定 
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正则 表达 式 所 描述 的 语言 的 输入 行 字符 串 。 给 出 以 下 命令 的 结果 。 
a.% java GREPmatch "CAIB)CCID)" < tinyL.txt 
b.% java GREPmatch "AC(BIO*D" < tinyL.txt 
c.% java CREPmatch "(A*BIAOD" < tinyL.txt 
5.4.8 用 正则 表达 式 描述 以 下 二 进 制 字符 中 的 集合 。 
a. 含有 至 少 3 个 连续 的 ] - 
b. 含有 子 字符 串 110 人 
c. 含有 子 字符 串 1101100 e 
.不 含有 子 字符 串 110  . 806 
5.4.9 用 一 个 正则 表达 式 描述 至 少 含有 两 个 0 但 不 含有 任何 连续 的 0 的 二 进 制 字符 
5.4.10 用 正则 表达 式 描述 以 下 二 进 制 字符 串 的 集合 
.至少 舍 有 3 个 字符 ， 且 第 三 个 字符 为 0 
b. 字符 串 中 的 0 的 个 数 为 3 的 倍数 “~ 
ec 起 止 字符 相同 
d 长 度 为 奇数 
e. 首 字母 为 0 且 长 度 为 奇数 ， 为 1 且 长 度 为 偶数 
f. 长 度 在 1 到 3 之 间 六 - 
5.4.11 对 于 以 下 正则 表达 式 ， 计 算 有 多 少 个 长 度 正好 为 1000 的 二 进 制 字符 串 和 它们 匹配 。 
a. 0(0 | D*1 t 
b 0*101* =. - A 
c.(1 1 0D* 
5.4.12 ”为 以 下 应 用 写 出 Java 的 正则 表达 起 。 
a. 电话 号 码 ， 例 如 (609) 555-1234 
b. 社 会 保险 号 ， 例 如 123-45-6789 
e. 日 期 ， 例 如 December 31, 1999 
d. 形 如 a.b.e.d 的 I 人 P 地址 ， 其 中 每 个 字符 都 表示 着 一 个 可 能 是 1 位 、2 位 或 者 3 位 的 数字 
例如 196.26.155.241 q 
e. 车 牌号 ， 前 4 个 字符 为 数字 ; 最 后 2 个 字符 为 大 写字 母 807 


图 提高 是 


5.4.13 ”有 难度 的 正则 表达 式 。 使 用 二 值 字母 表 的 正则 表达 式 描述 以 下 字符 申 的 集合 。 
4 除了 11 和 111 的 所 有 字符 串 
bb 奇数 位 数字 为 1 的 所 有 字符 串 
c. 至 少 含有 两 个 0 和 至 多 含有 一 个 1 的 所 有 字符 串 
忆 不 存在 连续 两 个 1 的 所 有 字符 串 
5.4.14 二 进 制 数 的 可 整除 性 。 使 用 正则 表达 式 描述 以 下 二 进 制 字符 串 使 得 其 对 应 的 整数 能 够 满足 以 下 
条 件 。 
& 被 2 整除 
b. 被 3 整除 
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5.4.15 


5.4.16 





c. 被 123 整除 = 

单 层 正则 表达 式 。 构 造 一 个 Java 的 正则 表达 式 来 描述 所 有 二 值 字母 表 的 合法 正则 表达 式 字符 串 . 
的 集合 , 字符 串 不 含有 伐 套 的 括号 。 例如 ,〔.*1)* 和 (1.*0)* 都 是 这 个 语言 中 的 字符 串 , 但 (1(0 
或 者 DD* 不 是 。 

多 向 “或 " 运算。 为 NFA 实现 多 向 “或 ”运算 。 代 到 为 机 式 *AB((CID1E)F)*c) 生成 的 自动 


“机 应 该 如 图 5.4.8 所 示 。 





”图 5.4.8” 模 式 (.*ABCCCID1E)F)*G) 所 对 应 的 NFA 


通配符 。 为 NFA 添加 处 理 通配符 的 能 力 。 

至 少 重复 一 次 。 为 NFA 添加 处 理 闭 包 的 “+” 运 算 符 的 能 力 。 
指定 重复 次 数 。 为 NFA 添加 处 理 指定 重复 次 数 的 能 力 。 
范围 描述 符 。 为 NFA 添加 处 理 指定 重复 范围 的 能 力 。 


. 补 集 。 为 NFA 添加 处 理 补 集 描述 符 的 能 力 。 


证 明 。 开 发 一 个 新 版 本 的 NFA， 使 它 能 够 打印 一 份 证 明 ; 指出 给 定 字符 串 包含 在 NFA 能 够 识别 


”的 语言 之 中 即 终止 于 接受 状态 的 一 系列 状态 转换 ) 。 了 





5.5 数据 压缩 


这 个 世界 充满 了 数据 ， 而 能 够 有 效 表达 数据 的 算法 在 现代 计算 机 基础 架构 中 有 着 重要 的 地 位 。 
压缩 数据 的 原因 主要 有 两 点 :节省 保存 信息 所 需 的 空间 和 节省 传输 信息 所 需 的 时 间 。 尽 管 科技 在 发 
展 ,但 是 这 两 点 的 重要 性 并 没有 发 生变 化 ， 如 今 任何 需要 更 大 存储 空间 或 是 长 时 间 等 待 下 载 任务 完 
成 的 人 都 会 意识 到 数据 压缩 的 重要 性 。 

当 你 在 处 理 数字 图 像 、 声 音 、 电 影 和 其 他 各 种 数据 时 ， 就 已 经 在 与 数据 压缩 打交道 了 。 我 们 将 会 
学 习 的 算法 之 所 以 能 够 节省 空间 ， 是 因为 大 多 数 数据 文件 都 有 很 大 的 宛 余 : 例如 ， 文 本 文件 中 有 些 字 
符 序列 的 出 现 频率 远 高 于 其 他 字符 串 ; 用 来 将 图 片 编码 的 位 图 文件 中 可 能 有 大 片 的 同 质 区 域 ;保存 数 
字 图 像 、 电 影 、 声 音 等 其 他 类 似 信号 的 文件 都 含有 大 量 重复 的 模式 。 

我 们 将 会 讨论 广泛 应 用 的 一 种 初级 的 算法 和 两 种 高 级 的 算法 。 这 些 算法 的 压缩 效果 可 能 有 
所 不 同 ， 取 决 于 输入 的 特征 。 文 本 数据 一 般 都 能 节省 20% ~ 50% 的 空间 ， 某 些 情况 下 能 够 达到 
50% ~ 90%。 你 将 会 看 到 ， 任 何 数 据 压 缩 算法 的 效果 都 十 分 依赖 于 输入 的 特征 。 注 意 : 本 书 中 , 我 
们 在 提 到 性 能 的 时 候 一 般 指 的 都 是 时 间 ; 而 对 于 数据 压缩 ， 性 能 指 代 的 是 算法 的 压缩 率 ， 当 然 也 会 
考虑 压缩 的 用 时 。 

从 另 一 方面 来 说 ， 现 在 的 数据 压缩 技术 并 没有 以 前 那么 重要 了 ， 因 为 计算 机 的 存储 设备 的 成 本 已 
经 大 幅度 降低 ， 普 通用 户 拥有 的 存储 空间 比 以 前 要 多 得 多 。 但 是 ， 现 在 数据 压缩 技术 也 比 任何 时 候 都 
更 重要 ， 因 为 现在 存储 的 数据 更 多 了 ， 因 此 数据 压缩 能 够 节省 的 空间 也 就 更 大 了 。 事 实 上 ， 随 着 互联 
网 的 出 现 ， 数 据 压缩 得 到 了 更 加 广泛 的 应 用 ， 因 为 它 是 减少 传输 大 量 数据 所 需 时 间 的 最 经 济 的 办 法 。 

数据 压缩 有 着 丰富 的 历史 积淀 (我们 只 会 作 简要 的 介绍 ) ， 而 它 在 未 来 世界 中 扮演 的 角色 将 会 
更 加 重要 。 所 有 人 都 能 从 数据 压缩 算法 的 学 习 中 得 到 益处 ， 因 为 这 些 算法 都 非常 经 典 、 优 雅 、 有 趣 
而 高 效 。 


5.5.1 游戏 规则 

现代 计算 机 系统 中 处 理 的 所 有 类 型 的 数据 都 有 一 个 共同 点 ; 它们 最 终 都 是 用 二 进 制 表示 的 。 我 们 
可 以 将 它们 都 看 成 一 串 比 特 ( 或 者 字 节 ) 的 序列 。 简 单 起 见 ， 本 节 中 使 用 比特 流 这 个 术语 表示 比特 的 
序列 ， 用 字 节 流 这 个 术语 表示 可 以 看 作 固 定 大 小 的 字 节 序列 的 比特 序列 。 比 特 流 或 字 节 流 可 以 是 保存 
在 计算 机 中 的 文件 ， 也 可 以 是 互联 网 上 传输 的 一 条 消息 。 
基础 模型 

数据 压缩 的 基础 模型 非常 简单 ( 请 见 图 5.5.1 ) 。 它 由 两 个 主要 的 部 分 组 成 ， 两 者 都 是 一 个 能 
够 读 写 比特 流 的 黑 盒子 : 

口 压缩 金 ， 能 够 将 一 个 比特 流 B 转化 为 压缩 后 的 版 本 C(B); 

口 展开 爹 ， 能 够 将 C(B) 转化 回 B。 

如 果 使 用 |B| 表示 比特 流 中 比特 的 数量 的 话 ， 我 们 感 兴趣 的 是 将 |C(B)WMIB| 最 小 化 ， 这 个 值 被 称 
为 压缩 率 。 
展开 


比特 流 B 
0110110101... 


原 比特 流 B 


O110110101... 








图 5.5.1 数据 压缩 的 基础 模型 
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这 种 模型 叫做 无 损 压缩 模型 一 一 保证 不 丢失 任何 信息 ， 即 压缩 和 展开 之 后 的 比特 流 必须 和 原始 
的 比特 流 完全 相同 。 许 多 种 类 型 的 文件 都 会 用 到 无 损 压 缩 ， 例 如 数值 数据 或 者 可 执行 的 代码 。 对 于 
某 些 类 型 的 文件 (例如 图 像 、 视 频 和 音乐 ) ， 有 损 的 压缩 方法 也 是 可 以 接受 的 ， 此 时 解码 器 所 产生 
的 输出 只 是 与 原 输入 文件 近似 。 有 损 压 缩 算法 的 评价 标准 不 仅 是 压缩 率 ， 还 包括 主观 的 质量 感受 。 
在 本 书 中 不 会 讨论 有 损 压 缩 算法 。 


5.5.2 ” 读 写 二 进 制 数据 

完整 描述 计算 机 上 信息 的 编码 方式 取决 王 系统 ， 这 超出 了 本 书 的 讨论 范围 。 但 我 们 可 以 通过 几 
个 基本 的 假设 和 两 个 简单 的 API 来 将 实现 与 这 些 细节 隔离 开 来 。BinaryStdIn 和 BinaryStdOut 这 
两 份 API 来自 于 我 们 一 直 在 使 用 的 StdIn 和 Stdout， 但 它们 的 作用 是 读 取 和 写 入 比特 ， 而 StdIn 和 


StdOut 面向 的 是 由 Unicode 编码 的 字符 流 。StdOut 上 的 一 个 int 值 是 一 串 字符 ( 它 的 十 进 制 表 示 ) ; 


BinaryStd0ut 上 的 一 个 int 值 是 一 串 比特 ( 它 的 二 进 制 表示 ) 。 
5.5.2.1 ”二进制 的 输入 输出 

今天 ， 大 多 数 系统 的 输入 输出 系统 ， 包 括 Java， 都 是 基于 8 位 的 字 节 流 ， 因 此 我 们 的 API 也 许 应 
该 读 写 字 节 流 ， 以 和 原始 数据 类 型 内 部 表示 的 输入 输出 格式 相 匹 配 ， 将 8 位 的 char 编码 为 1 个 字 节 ， 


_16 位 的 short 编码 为 2 个 字 节 ，32 位 的 int 编码 为 4 个 字 节 ， 等 等 。 因 为 比特 流 是 数据 压缩 的 主要 抽 
” 象 层次 ， 这 就 需要 更 进一步 ， 人 允许 用 例 读 写 单个 的 比特 以 及 原始 类 型 的 数据 。 我 们 的 目标 是 尽量 减少 用 


例 需 要 进行 的 类 型 转换 并 按照 操作 系统 的 要 求 表示 数据 。 表 5.5.1 中 的 API 从 标准 输入 中 读 取 比特 流 。 


表 5.5.1 从 标准 输入 读 取 比特 流 的 静态 方法 的 API 
public class BinaryStdIn 





- boolean readBoolean() 这 读 取 1 位 数据 并 返回 ~- 个 boolean 值 
char readChar() 读 取 8 位 数据 并 返回 一 个 char 值 
char readCharCint m 一 读 取 r (1~16) 位 数据 并 返回 一 个 char 值 
[适用 于 byte (8 位 ) 、short (16 位 ) 、int (32 位 ) 以 及 1ong 和 double(64 位 ) 的 类 似 方法 ] 
boolean isEmptyO) 比特 流 是 可 为 空 
void closeO) 关闭 比特 流 


和 StdIn 明显 不 同 的 是 ， 这 份 抽象 API 的 一 个 关键 特性 在 于 标准 输入 中 的 数据 并 不 一 定 
是 与 字 节 边界 对 齐 的 。 如 果 输 入 流 只 含有 一 个 字 节 ， 用 例 可 以 一 个 比特 一 个 比特 地 调用 8 次 
readBoolean() 方法 读 取 它 。 虽然 close() 方法 并 不 十 分 重要 ,但 为 了 能 够 终止 输入 ， 用 例 应 该 
使 用 close() 方法 表示 不 会 再 读 取 任何 数据 。 和 StdIn 与 StdOut 一 样 ， 使 用 表 5.5.2 中 的 补充 
API 来 向 标准 输出 写 人 比特 流 。 


表 5.5.2 向 标准 输出 中 写 入 比特 流 的 入 态 方法 的 API 
public class BinaryStdOut 





void -writeCboolean b) 瑟 人 指定 的 比特 
:void writeCchar c) : ”” 写 入 指 定 的 8 位 字符 
void write(char ¢, int r) > 写 入 指定 字符 的 低 r (1~16) 位 


[适用 于 byte (8 位 )、 short (16 位 ) 、int (32 答 ) 以 及 1ong 和 double ( 64 位) 的 类 似 方法 ] 
void closeO 关闭 比特 流 
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对 于 输出 ，close() 方法 就 很 重要 了 : 用 例 必须 使 用 close() 方法 保证 之 前 调用 write() 方 
法 处 理 的 所 有 数据 都 写 人 比特 流 ， 比 特 流 的 最 后 一 个 字 节 必须 用 0 补 齐 以 保证 和 文件 系统 的 兼容 性 。 
StdIn 与 StdOut 有 In 与 0ut 这 两 份 API 与 之 关联 ， 这 里 也 通过 BinaryIn 和 BinaryOut 直接 使 
用 二 进 制 编码 的 文件 。 
5.5.2.2 举例 

以 下 是 一 个 简单 的 示例 ， 假 设 你 用 一 个 数据 结构 将 日 期 表示 为 3 个 int 值 (月 、 日 S 
年 ) 。 使 用 Stdout 将 这 些 值 以 12/31/1999 的 格式 输出 需要 10 个 字符 ， 也 就 是 80 位 。 如 果 用 
BinaryStdOut 直接 输出 这 些 值 则 需要 96 位 (每 个 int 值 32 位 ); 如 果 用 byte 值 来 表示 月 和 日 
用 short 值 表示 年 ， 输 出 将 只 有 32 位 。 如 果 使 用 Binarystdout， 可 以 只 用 4 位 、5 位 和 12 位 的 
3 个 域 ， 输 出 总 共 21 位 ， 请 见 图 5.5.2 ( 实际 上 是 24 位 ， 因为 文件 必须 是 完整 的 8 位 字 节 ， 因 此 
51ose() 方法 会 在 末尾 添加 三 个 0 位 。 ) 注意 ,这 是 最 粗 烟 的 数据 压缩 方式 。 


字符 流 (StdOut) 
StdOut.print(month + "/" + day + "/" + year); 








90110001001100100010111100110111001100010010111100110001 00111001 001110010011100T 
T 到 Tt 7 FE Wy 
s 80 位 
3 个 int 值 (BinaryStdOut) 8 位 ASCII 码 表示 的 "9' 


BinaryStdOut.write(month) ; 
BinaryStdOut.write(day); 





















































BinaryStdOut .write(year); 32 位 整数 表示 的 31 
[ 900000000000000000000000000011000000000000000000000000000001111100000000000000000000011111001117 
到 四 1999 96 位 

2 个 char 值 和 1 个 short 值 (BinaryStdOut) 一 个 4 位 、 一 个 5 位 和 一 个 12 位 的 3 个 域 (BinaryStdOut) 
BinaryStdOut.write(Cchar) month); BinaryStdOut.writeCmonth，4) 1; 

BinaryStdOut .write(Cchar) day); BinaryStdOut.write(day, 5); 
BinaryStdOut.write((short) year); BinaryStdOut.write(year, 12); 
[60001100000111110000011171001111 T10011711011111001117 

We Sa “21 位 (关闭 时 会 为 了 对 齐 补 充 3 位 ) 


图 5.5.2 向 标准 输出 中 写 人 一 个 日 期 的 4 种 方法 


5.5.2.3 二进制 转 储 
在 调试 的 时 候 ,我 们 应 该 如 何 检查 比特 流 或 者 字 节 流 的 内 容 呢 ? 早期 的 程序 员 面 临 着 这 个 问题 ， 

因为 当时 寻找 bug 的 唯一 方式 就 是 检查 内 存 中 的 每 个 比特 。 转 储 (dump ) 这 个 词 从 计算 机 的 早期 一 
直 沿 用 下 来 ， 表 示 的 是 比特 流 的 一 种 可 供 人 类 阅读 的 形式 。 如 果 你 试图 用 一 个 编辑 器 来 打开 一 个 二 
进 制 文件 , 或 者 用 文本 方式 察看 一 个 二 进 制 文件 的 内 容 (或 者 运行 一 个 使 用 BinaryStdOut 的 程序 ) ， 
那 会 看 到 一 团 乱码 ， 内 容 取决 于 使 用 的 系统 。BinaryStdIn 可 以 避 开 对 系统 的 依赖 性 ， 允 许 我 们 纺 
写 自己 的 程序 来 将 比特 流转 化 为 标准 工具 能 够 处 理 的 内 容 。 例 如 ， 下 页 框 注 所 示 的 程序 BinaryDump 
调用 了 BinaryStdIn， 将 标准 输入 中 的 比特 按照 0 和 1 的 形式 打印 出 来 。 在 处 理 小 规模 输入 时 这 个 
程序 是 一 个 很 有 用 的 调试 工具 。 类 似 的 工具 HexDump 可 以 将 数据 组 织 成 8 位 的 字 节 并 将 它 打 印 为 各 
表示 4 位 的 两 个 十 六 进 制 数 。 用 例 PictureDump 可 以 用 Picture 对 象 表示 比特 ， 其 中 白色 像素 表示 
0， 黑 色 像素 表示 1。 你 可 以 从 本 书 的 网 站 上 下 载 BinaryDump、HexDump 和 PictureDump， 请 见 图 
5.3.3。 我 们 一 般 会 用 管道 和 重 定向 等 方式 在 命令 行 处 理 二 进 制 文件 ， 将 编码 器 的 输出 通过 管道 传递 
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给 BinaryDump、HexDump 或 者 PictureDump， 或 者 将 它 重 定向 到 一 个 文件 之 中 。 


public class BinaryDump 
4 


public static void main(String[] args) 
BS 
int width = Integer.parseInt(args[0]); 
int cnt; 
for (cnt = 0; !BinaryStdIn.isEmptyO; cnt++) 


if (width 一 0) continue; 
if (cnt 1= 0 && cnt % width == 0) 
Stdout.printlnO; 
if (BinaryStdIn.readBoolean()) 
StdOut .print("1"); 
else StdOut.print("0"); 


} 
StdOut.print1nO; 
StdOut.printIn(cnt + " bits"); 














} 
} 
将 比特 流 打印 在 标准 输出 上 (字符 形式 ) 
标准 字符 流 用 十 六 进 制 数字 表示 的 比特 流 
% more abra.txt % java HexDump 4 < abra.txt 
ABRACADABRA! 41 42 52 41 
43 41 44 41 
用 0 和 1 表示 的 比特 流 性 坟 
% java BinaryDump 16 < abra.txt 
0100000101000010 用 Picture 对 象 中 的 像素 表示 的 比特 流 
OD % java PictureDunp 16 6 < abra.txt 
0100010001000001 四 放大 的 16x 6 
0100001001010010 像素 图 像 
0100000100100001 
96 位 96 位 
814 图 5.5.3 查看 比特 流 的 4 种 方法 
5.5.2.4 ASCI 编码 
当 你 使 用 HexDump 查看 一 个 含有 让 





ASCII 编码 的 字符 的 比特 流 的 内 容 时 ， 最 
好 参考 图 5.5.4。 对 于 给 定 的 两 个 十 六 进 制 
数字 ; 用 第 一 个 数字 表示 行 、 第 二 个 数字 
表示 列 即 可 找到 它 所 表示 的 字符 。 例 如 ， 2 
31 表示“1”,， 4A 表示 “J”， 等 等 。 这 , 
张 表 适 用 于 7 位 ASCII 码 ， 因 此 第 一 个 I 
十 六 进 制 数字 必须 是 小 于 等 于 7 的 。 以 0 "|alolels 由 eo 
或 者 1 开头 的 数 ( 以 及 20 和 7F ) 对 应 的 CURABLE lr 
本 


都 是 无 法 打印 出 来 的 控制 字符 。 许 多 控制 图 5.5.4 十 六 进 制 编码 和 ASCII 字符 的 转换 表 
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字符 都 是 为 了 控制 打字 机 时 代 的 物理 设备 而 遗留 下 来 的 产物 。 我 们 在 这 张 表 中 突出 了 一 些 你 可 能 在 
转 储 中 已 经 见 过 的 字符 。 例 如 ，SP 是 空格 符 ，NUL 是 空 字符 ，LF 是 换行 符 ，CR 是 回 车 。 

总 之 ， 在 处 理 数据 压缩 问题 时 ， 除 了 标准 输入 输出 之 外 还 要 能 够 处 理 二 进 制 编码 的 数据 。 
BinaryStdIn 和 BinaryStdOut 提供 了 我 们 所 需要 的 方法 。 它 们 能 够 在 用 例 中 区 分 为 文件 存储 和 数 
据 传输 而 输出 的 信息 〈 供 其 他 程序 使 用 ) 和 为 打印 而 输出 的 信息 ( 供 人 类 阅读 ) 。 


5.5.3 ”局限 

为 了 更 好 地 理解 数据 压缩 算法 ， 你 需要 了 解 它 们 的 一 些 局 限 性 。 研 究 人 员 已 经 为 此 打下 了 完整 而 
重要 的 理论 基础 ， 本 节 的 最 后 会 简要 讨论 ， 但 现在 我 们 先 来 探讨 几 个 方便 入 门 的 结论 。 
5.5.3.1 通用 数据 压缩 

在 已 经 学 习 了 许多 重要 问题 的 算法 之 后 ， 你 可 能 会 认为 我 们 的 目标 
是 通用 性 的 数据 压缩 算法 ， 即 一 个 能 够 缩小 任意 比特 流 的 算法 。 但 与 之 


于 
相反 ,我 们 定 下 的 目标 更 加 朴素 ， 因 为 通用 性 的 数据 压缩 是 不 可 能 存在 全 
的 ， 请 见 图 5.5.5。 一 一 
oo 
vw 
1 

















命题 S。 不 存在 能 够 压缩 任意 比特 流 的 算法 。 


证 明 。 我 们 来 看 两 种 有 见地 的 证 明 。 第 一 种 采用 的 是 反 证 法 : 假设 
存在 一 个 能 够 压缩 任意 比特 流 的 算法 ， 那 么 也 就 可 以 用 它 压缩 它 自 
已 的 输出 以 得 到 一 段 更 短 的 比特 流 ， 循 环 往复 直到 比特 流 的 长 度 为 
01 能 够 将 任意 比特 流 的 长 度 压缩 为 0 显然 是 荒废 的 ， 因 此 存在 能 
够 压缩 任意 比特 流 的 算法 的 假设 也 是 错误 的 。 

第 二 种 证 明 方 法 基于 统计 : 假设 有 一 种 算法 能 够 对 所 有 长 度 为 1000 
位 的 比特 流 进行 无 损 压 缩 ， 那 么 每 一 种 能 够 被 压缩 的 比特 流 都 对 应 
着 一 段 较 短 且 不 同 的 比特 流 。 但 长 度 小 于 1000 位 的 比特 流 一 共 只 
有 1+2+4+…+2+2Y=21%-] 种 ， 而 长 度 为 1000 位 的 比特 流 一 共有 
2 种， 因此 该 算法 不 可 能 压缩 所 有 长 度 为 1000 的 比特 流 。 如 果 我 
们 声明 更 多 的 条 件 ， 那 么 这 段 证 明 会 更 有 说 服 力 。 例 如 ， 继 续 假设 
算法 的 目标 是 取得 大 于 50% 的 压缩 率 ， 那 么 显然 所 有 长 度 为 1000 
位 的 比特 流 中 的 压缩 成 功率 将 只 有 12 ! 





四 — oe 0 Ck 


换 句 话说 ， 对 于 任意 数据 压缩 算法 ， 将 长 度 为 1000 位 的 随机 比特 
流 压缩 为 一 半 的 概率 最 多 为 12m。 当 过 到 一 种 新 的 无 损 压 缩 算法 时 ，。 图 555 是 否 存在 通用 
我 们 可 以 肯定 它 是 无 法 大 幅度 压缩 随机 比特 流 的 。 抛 奔 对 压缩 随机 比特 数据 压缩 
流 的 幻想 是 理解 数据 压缩 的 起 点 。 虽 然 我 们 会 经 常 处 理 数 百 万 至 数 十 亿 
比特 长 度 的 字符 申 ， 但 处 理 过 的 数据 总 量 只 是 这 种 字符 串 总 数 的 九 牛 一 毛 ， 所 以 不 必 为 这 个 理论 结 
果 而 肖 形 。 事 实 上 ， 经 常 被 处 理 的 比特 字符 让 都 是 非常 有 规律 的 ， 在 压缩 时 可 以 利用 这 一 点 。 
5.5.3.2 不 可 判定 性 

请 见 图 5.5.6， 它 是 一 条 上 百 万 位 的 字符 串 。 这 个 字符 趾 看 起 来 很 随机 ， 所 以 你 不 太 可 能 为 它 
找到 一 个 无 扣压 缩 算法 。 但 有 一 种 方法 只 用 几 千 个 比特 就 可 以 表示 这 个 字符 囊 ， 因 为 它 是 通过 右 下 
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框 注 中 的 程序 生成 的 。 ( 这 个 程序 是 伪 随 机 数 生成 器 的 一 个 示例 ， 和 Java.Math.random() 方法 一 
样 。 ) 通过 用 ASCIL 文本 编写 生成 程序 来 进行 压缩 、 通 过 读 取 并 运行 该 程序 来 展开 被 压缩 字符 串 的 
压缩 算法 能 够 取得 0.3% 的 压缩 率 ， 这 是 非常 难以 超越 的 。 (我 们 还 能 够 降低 这 个 比例 ， 只 要 该 程 
序 再 输出 更 多 比特 即 可 。 ) 压缩 这 个 文件 最 好 的 方法 就 是 找 出 创造 这 些 数据 的 程序 。 这 个 例子 并 不 
像 它 看 起 来 那么 深奥 : 当 你 在 压缩 一 段 视频 或 是 一 本 通过 扫描 而 数字 化 的 旧书 或 是 互联 网 上 的 无 数 
其 他 类 型 的 文件 时 ， 你 都 在 寻找 创造 这 个 文件 的 程序 。 在 意识 到 我 们 处 理 的 大 部 分 数据 都 是 由 某 种 
程序 产生 的 之 后 , 我 们 才能 发 现 计算 理论 中 的 一 些 深刻 的 问题 并 理解 数据 压缩 所 面临 的 挑战 。 例 如 ， 
可 以 证 明 最 优 数据 压缩 ( 找到 能 够 产生 给 定 字 符 串 的 最 短程 序 ) 是 一 个 不 可 判定 的 问题 : 我们 不 但 
不 可 能 找到 能 够 压缩 任意 比特 流 的 算法 ， 也 不 可 能 找到 最 佳 的 压缩 算法 ! 


% java RandomBits | java PictureDump 2000 500 






1 000 000 位 
图 5.5.6 一 个 难以 压缩 的 文件 ，100 万 ( 伪 ) 随机 比特 


这 些 局 限 性 所 带 来 的 实际 影响 要 求 无 损 压缩 算法 必须 尽量 利用 被 压缩 的 数据 流 中 的 已 知 结构 。 
我 们 将 会 依次 讨论 4 种 方法 来 处 理 具备 以 下 结构 特点 的 数据 : 

口 小 规模 的 字母 表 ; 

口 较 长 的 连续 相同 的 位 或 字符 ; 

口 频繁 使 用 的 字符 ; - 

口 较 长 的 连续 重复 的 位 或 字符 。 

如 果 你 已 知 给 定 的 比特 流 中 具有 以 上 We elass RandonDits 
一 种 或 多 种 特点 ， 那 么 就 能 够 通过 将 要 学 public static void main(String[] args) 


“ 习 的 4 种 方法 将 它 压缩 ; 如果 不 知道 给 定 i 
比特 流 具 有 的 特点 ， 也 可 以 用 它们 碰 磋 运 for (int i = 0; i < 1000000; i++) 
气 ， 因 为 你 的 数据 结构 也 许 并 不 是 那么 明 Dy Ss 
显 ， 而 这 些 方法 的 适用 性 很 广 。 你 将 会 看 BinaryStdOut.write(x > 0); 

7 F } 
到 ， 每 种 方法 都 有 多 个 参数 和 变种 ， 并 且 a 
可 以 为 特定 的 比特 流 调 优 以 达到 最 佳 的 压 1 
缩 率 。 第 二 个 和 最 后 一 个 示例 是 为 了 帮助 3 
你 了 解数 据 的 结构 ， 接 下 来 我 们 会 学 习 一 “被 压缩 后 的 ” 一段 上 百 万 比特 的 数据 流 
个 方法 来 压缩 示例 数据 。 


5.5.4 ”热身 运动 : 基因 组 
在 讨论 更 加 复杂 的 数据 压缩 问题 之 前 ,我 们 先 来 处 理 一 个 初级 的 ( 但 也 十 分 重要 的 ) 数据 压缩 
任务 。 我 们 在 这 个 例子 中 会 介绍 一 些 约定 ,它们 将 适用 于 本 节 中 的 所 有 实现 。 


5.5.4.1 基因 数据 
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作为 数据 压缩 的 第 一 个 示例 ， 请 看 下 面 这 个 字符 串 : 
ATACATGCATAGCGCATAGCTAGATGTGCTAGCAT 


如 果 使 用 标准 的 ASCII 编码 ( 每 个 字 -: 


符 1 个 字 节 ，8 位 ) ， 这 个 字符 串 的 比特 流 - 


长 度 为 8x 35=280 位 。 这 种 字符 串 在 现代 生 


物 学 中 非常 重要 ,因为 生物 学 家 用 字母 AC、 


T 和 G 来 表示 生物 体 的 DNA 中 的 四 种 碱 基 。 
基因 就 是 一 条 碱 基 的 序列 。 科 学 家 认识 到 理 
解 基 因 的 性 质 是 理解 它们 在 活体 器 官 中 如 何 








public static void compress() 


Alphabet DNA = new Alphabet("ACTC"); 
String s = BinaryStdIn. readString(); 
int N = s.length(); 
BinaryStdOut .write(N); 
for (int i = 0; 1 < N; i++) 
{ // 将 字符 用 双 位 编码 代码 表示 
int d = DNA.toIndex(s.charAt(1i)); 
BinaryStdOut .write(d, DNA.1gRO); 


作用 的 关键 ， 包 括 生命 、 死 亡 和 疾病 。 许 多 
生物 的 基因 现在 都 是 已 知 的 ， 而 一 些 科 学 家 
正在 编写 程序 来 分 析 这 些 序列 的 结构 。 
5.5.4.2” 双 位 编码 压缩 

基因 的 一 个 简单 性 质 是 ， 它 由 4 种 不 同 
的 字符 组 成 这 些 字符 可 以 用 两 个 比特 编码 ， 
如 右 侧 的 compress() 方法 所 示 。 尽 管 我 们 
知道 输入 流 是 由 字符 组 成 的 ， 但 是 仍然 可 以 
使 用 BinaryStdIn 来 读 取 这 些 输入 以 和 标 i 
准 的 数据 压缩 模型 保持 一 致 ( 从 比特 流 到 比 ee 
特 流 ) 。 我 们 在 压缩 后 的 文件 中 记录 了 被 纺 { 。 // 读 取 2 比特 ， 写 入 一 个 字符 
码 的 字符 数量 ， 这 样 即使 最 后 一 位 并 没有 和 人 
字 节 对 齐 ， 解 码 也 能 够 顺利 进行 。 因 为 它 能 。 

够 将 一 个 8 位 的 字符 转换 为 一 个 双 位 编码 ， 过 
且 只 在 最 后 附加 32 位 用 于 记录 总 长 度 ， 上 

方程 序 的 压缩 率 会 随 着 压缩 字符 的 增多 越 来 

越 接近 25%。 

5.5.4.3 ” 双 位 编码 展开 

右边 框 注 中 的 expand() 方法 能 够 将 这 个 compress() 方法 产生 的 比特 流 展开 。 和 压缩 时 一 样 ， 
该 方法 会 按照 数据 压缩 的 基础 模型 读 取 一 个 比特 流 并 输出 一 个 比特 流 。 它 输出 的 比特 流 和 原始 输入 
相同 。 

相同 的 方法 也 适用 于 其 他 字母 表 大 小 固定 的 字符 串 , 但 我 们 将 它 的 推广 留 作 ( 简单 的 ) 习 题 ( 请 
见 练习 5.5.25) 。 

这 些 方法 和 数据 压缩 的 基础 模型 并 不 完全 一 致 ， 因 为 编码 后 的 比特 流 中 并 没有 包含 将 其 解码 所 
需 的 所 有 信息 。 由 A、C、T、G 4 个 字母 组 成 的 字母 表 只 是 两 个 方法 之 间 的 约定 。 这 种 约定 在 基因 
组 这 种 应 用 中 是 合理 的 ， 因 为 这 些 编码 会 被 大 量 复 用 。 但 在 其 他 的 场景 中 ， 字 母 表 也 可 能 需要 包含 
在 被 编码 的 信息 中 ( 请 见 练习 5.5.25 ) 。 在 比较 数据 压缩 的 方法 时 我 们 通常 都 要 计 入 这 些 成 本 。 

在 基因 组 学 的 早期 ， 分 析 一 段 染 色 体 序列 是 一 个 漫长 而 艰苦 的 任务 ， 因 此 已 知 的 序列 都 相对 较 短 ， 
科学 家 可 以 用 标准 的 ASC 编码 来 存储 和 交换 它们 。 现在 ， 这 个 实验 流程 的 效率 已 经 大 大 提高 了 ,已 知 


} 
BinaryStdOut. closeQO); 


基因 数据 的 压缩 方法 


public static void expandC) 
i 


Alphabet DNA ~ new Alphabet("ACTC") 
int w = DNA.1gRO); 





} 
BinaryStdOut .closeO; 


基因 数据 的 展开 方法 
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的 基因 组 的 数量 非常 多 而 且 都 很 长 ( 人 类 的 基因 组 长 度 超过 10” 比特 ) 。 用 这 些 简单 的 方法 就 能 节省 
75% 的 空间 已 经 非常 可 观 了 。 还 有 继续 压缩 的 余地 吗 ? 这 是 一 个 非常 有 趣 的 问题 ， 因 为 这 是 一 个 科学 问 
题 : 继续 压缩 的 潜力 意味 着 这 些 数据 中 还 存在 着 某 种 结构 ， 而 现代 基因 组 学 的 重点 就 是 希望 从 基因 数据 
中 发 现 更 多 的 结构 。 我 们 将 会 学 习 的 一 些 标准 数据 压缩 方法 对 于 ( 经 过 双 位 编码 压缩 后 的 ) 基因 数据 并 
没有 什么 效果 ， 和 处 理 随机 数据 类 似 。 


小 型 测试 用 例 (264 位 ) 


% more genomeTiny .txt 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGC 


java BinaryDump 64 < genomeTiny.txt 
0100000101010100010000010100011101000001010101000100011101000011 
0100000101010100010000010100011101000011010001110100001101000001 
0101010001000001010001110100001101010100010000010100011101000001 
0101010001000111010101000100011101000011010101000100000101000111 
01000011 

264 位 


% java Genome - < genomeTiny.txt 
?? 一 一 在 标准 输出 上 无 法 看 到 比特 流 


% java Genome - < genomeTiny.txt | java BinaryDump 64 
0000000000000000000000000010000100100011001011010010001101110100 
1000110110001100101110110110001101000000 

104 位 


% java Genome - < genomeTiny.txt | java HexDump 8 
00 00 00 21 23 2d 23 74 

8d 8c bb 63 40 

104 位 


% java Genome - < genomeTiny.txt > genomeTiny.2bit 
% java Genome + < genomeTiny.2bit 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGC 
压缩 -展开 循环 


% java Genome - < genomeTiny.txt | java Genome + 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGC 一 一 一 得 到 了 原始 输入 


-个 真实 的 病毒 (50 000 位 ) 
% java PictureDump 512 100 < genomeVirus.txt 





图 5.5.7 使 用 双 位 编码 压缩 和 展开 基因 组 序列 







我 们 将 compress() 和 expand() 作为 


1 Genome 
静态 方法 和 一 个 简单 的 用 例 打包 在 一 个 相同 。 。 名 “1355 





的 类 中 ， 如 杠 注 代码 所 示 。 为 了 测试 你 对 “二 polic staric void 守 习 人 六 
游戏 规则 的 理解 和 我 们 用 于 数据 压缩 的 基 es 
本 工具 ， 请 研究 图 5.5.7 中 的 各 种 命令 。 它 。:， 。 闻 庆 多 


们 调用 了 Genome.compress() 和 Genome. 
expand() 来 处 理 样本 数据 ( 以 及 输出 ) 。 


5.5.5 “游程 编码 “ 
比特 流 中 最 简单 的 宛 余 形式 就 是 一 长 ，. 了 1 
串 重复 的 比特 。 下 面 我 们 学 习 一 种 经 典 的 洲 数据 压缩 广 法 的 打包 方式 
程 编码 (Run-Length Encoding ) 来 利用 这 种 
宛 余 压缩 数据 。 例 如 ， 请 看 下 面 这 条 40 位 长 的 字符 串 ， 
0000000000000001111111000000011111111111 
该 字符 串 含有 15 个 0, 然后 是 7 个 1， 然 后 是 7 个 0， 然后 是 11 个 1， 因此 我 们 可 以 将 该 比特 字符 
申 编码 为 15，7，7，11。 所 有 的 比特 字符 串 都 是 由 交替 出 现 的 0 和 1 组 成 的 ， 因 此 我 们 只 需要 将 游程 的 
长 度 编码 即 可 。 在 这 个 例子 中 ， 如 果 用 4 位 表示 长 度 并 以 连续 的 0 作为 开头 ,那么 就 可 以 得 到 一 个 16 位 
长 的 字符 串 (15=1111, 7=0111, 7=0111， 11=100): 
1111011101111011 : 
压缩 率 为 16/40=40%。 为 了 将 这 里 的 描述 转化 成 一 种 ca 
有 效 的 数据 压缩 方法 ， 我 们 需要 解决 以 下 几 个 问题 。 ee 
口 应 该 使 用 多 少 比特 来 记录 游程 的 长 度 ? ES 
口 当 某 个 游程 的 长 度 超过 了 能 够 记录 的 最 大 长 度 时 a oa00 
怎么 办 ? 
口 当 游程 的 长 度 所 需 的 比特 数 小 于 记录 长 度 的 比特 
数 时 怎么 办 ? 
我 们 感 兴趣 的 主要 是 含有 的 短 游 程 相对 较 少 的 长 比 
特 流 ， 因 此 这 些 问题 的 回答 是 : 
口 游程 长 度 应 该 在 0 到 255 之 间 ， 使 用 8 位 编码 ;” 
口 在 需要 的 情况 下 使 用 长 度 为 0 的 游程 来 保证 所 有 
游程 的 长 度 均 小 于 256; 3: 
口 我 们 也 会 将 较 短 的 游程 编码 ， 虽然 这 样 做 有 可 能 
“使 输出 变 得 更 长 。 
这 些 决定 非常 容易 实现 而 且 对 于 实际 应 用 中 经 常 出 
现 的 几 种 比特 流 十 分 有 效 。 它 们 不 适用 于 含有 大 量 短 游 
程 的 输入 一 一 只 有 在 游程 的 长 度 大 于 将 它们 用 二 进 制 表 
示 所 需 的 长 度 时 才能 节省 空间 。 
5.5.5.1 位 图 F 
作为 游程 编码 效果 的 一 个 示例 ， 这 里 探讨 位 图 。 它 。 图 558 一 幅 典 型 的 位 图 ， 每 行 的 游程 


public static void main(String[] args) 
{ 


if (args[0] .equals("-")) compress(); 
if (args[0] .equals("+")) expand(); 
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被 广泛 用 于 保存 图 像 和 扫描 文档 。 简 单 起 见 , 我 们 将 二 进 制 位 图 数据 组 织 为 将 像素 按 行 排列 的 比特 流 。 
我 们 可 以 用 PictureDump 查看 位 图 的 内 容 。 用 程序 将 为 “截屏 ”或 是 “扫描 文档 ”所 定义 的 多 种 党 
见 的 无 损 图 像 格式 转化 为 位 图 十 分 简单 ( 请 见 练习 5.5x ) 。 这 里 用 来 展示 游程 编码 的 效果 的 示例 来 
自 本 书 的 图 像 : 一 个 字符 “q”( 各 种 分 辩 率 ) 。 我 们 的 重点 是 一 幅 32 x 48 像素 的 截图 的 二 进 制 转 储 ， 
如 图 5.5.8 所 示 ， 每 行 的 右 侧 为 该 行 的 游程 编码 。 因 为 每 行 的 开始 和 结束 都 是 0， 所 以 每 行 的 游程 数 
量 都 是 奇数 。 因 为 一 行 的 结束 之 后 就 是 另 一 行 的 开始 ， 所 以 比特 流 中 相对 应 的 游程 的 长 度 就 是 每 一 
行 的 最 后 一 个 游程 的 长 度 和 下 一 行 的 第 一 个 游程 的 长 度 之 和 ( 全 部 为 0 的 行 则 应 该 继续 相 加 ) 。 


5.5.5.2 实现 
由 刚才 给 出 的 非 正式 描述 可 以 立即 得 
到 右边 框 注 中 的 compress() 和 expand() 
方法 。 和 以 前 一 样 ，expand() 的 实现 相对 
简单 : 读 取 一 个 游程 的 长 度 ， 将 当前 比特 
按照 长 度 复制 并 打印 ， 转 换 当 前 比特 然后 
继续 ， 直 到 输入 结束 。compress () 方法 也 
很 简单 。 对 于 输入 ， 它 进行 了 以 下 操作 : 
口 读 取 一 个 比特 ; 
口 如 果 它 和 上 一 个 比特 不 同 ， 写 入 当 
前 的 计数 值 并 将 计数 器 归 零 ; 
口 如 果 它 和 上 一 个 比特 相同 且 计 数 器 
已 经 到 达 最 大 值 ， 则 写 人 计数 值 ， 
再 写 入 一 个 0 计数 值 ， 然 后 将 计数 
器 归 零 ; 
口 增加 计数 器 的 值 。 
当 输 入 流 结束 时 ， 写 入 计数 值 ( 最 后 
一 个 游程 的 长 度 ) 并 结束 。 
5.5.5.3 ”提高 位 图 的 分 辩 率 
游程 编码 广泛 用 于 位 图 的 主要 原因 是 ， 
随 着 分 辨 率 的 提高 它 的 效果 也 会 大 大 的 提 
高 。 证 明 这 一 点 很 简单 。 假 设 将 上 一 个 例 
子 中 的 分 辩 率 提高 一 倍 ， 则 很 容易 得 到 : 
口 总 比特 数 变 为 了 原来 的 4 售 ; 
口 游程 的 数量 变 为 约 原来 的 2 倍 ; 
口 游程 的 长 度 变 为 约 原来 的 2 倍 ; 
口 压缩 后 的 比特 数量 变 为 约 原来 的 2 
信 ; 
口 因此 ， 压 缩 率 变 成 了 原来 的 一 半 ! 
未 使 用 游程 编码 时 ， 当 分 辩 率 提高 一 


public static void expand() 


boolean b = false; 
while (!BinaryStdIn.isEmptyO) 
{ 
char cnt = BinaryStdIn. readCharO); 
for (int 1 = 0; i < cnt; i++) 
BinaryStdOut .write(b); 
b= !b; 


} 
BinaryStd0ut.closeO; 


public static void compress() 


char cnt = 0; 

boolean b, old = false; 

while (!BinaryStdIn.isEmpty()) 
{ 


b = BinaryStdIn. readBooleanO) ; 
if (b != 01d) 
{ 
BinaryStdOut.writeCcnt); 
cnt=0; 
old = !o1d; 


else 
if (cnt == 255) 
BinaryStdOut .writeCcnt); 
cnt = 0; 


BinaryStdOut.write(cnt); 


} 


Cnt++i 
} 
BinaryStdOut .write(cnt); 


BinaryStd0ut.close(); 
} 


游程 编码 的 压缩 和 展开 方法 


倍 时 图 像 所 需 空间 变 为 原来 的 4 倍 ; 使 用 了 游程 编码 后 ， 当 分 辩 率 提高 一 倍 时 压缩 后 的 比特 流 的 
长 度 仅 变 为 了 原来 的 一 倍 。 也 就 是 说 ， 随 着 所 需 空间 的 增 大 ， 压 缩 比 和 分 辩 率 成 反比 。 例 如 ， 我 
们 的 字母 “q” (在 低 分 辩 率 时 ) 的 压缩 率 为 74%; 如 果 将 分 辩 率 提高 到 64x96， 压 缩 比 就 下 降 为 
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37%。 我 们 从 图 5.5.9 中 PictureDump 的 输出 中 可 以 明显 看 出 这 个 变化 。 高 分 辩 率 的 字符 图 像 所 需 
的 空间 是 低 分 辩 率 字符 图 像 的 4 倍 (两 个 维度 上 的 长 度 均 加 倍 ) ,但 压缩 后 的 版 本 所 需 的 空间 仅 为 
原来 的 2 倍 ( 只 在 一 个 维度 上 增 倍 ) 。 如 果 继 续 将 分 辩 率 提高 到 128 x 192 ( 接近 于 打印 所 需 的 分 辩 
率 ) ， 压 缩 比 则 会 下 降 到 18% ( 请 见 练习 5.5.5 ) 。 


小 型 副 试 用 例 (40 位 ) 


% java BinaryDump 40 < 4runs.bin 
0000000000000001111111000000011111111111 


40 位 

% java RunLength - < 4runs.bin | java HexDump 
OF 07 07 ob 

32 位 压缩 比 32/40=80% 


% java RunLength - < 4runs.bin | java RunLength + | java BinaryDump 40 
0000000000000001111111000000011111111111 ~ 一 压缩 -展开 得 到 了 原始 输入 
40 位 


ASCII 文 本 (96 位) 


% java RunLength - < abra,txt | java HexDump 24 
ol ol 05 01 01 01 04 01 02 01 01 01 02 01 02 01 05 01 01 01 04 02 01 01 
1 


05 01 01 01 03 ol 03 01 05 01 01 01 04 01 02 01 01 01 02 01 02 01 05 01 

02 01 04 01 

416 位 。 一 一 压 编 比 416/96=433% 一 一 请 勿 使 用 游 种 编码 来 处 理 ASCI[ 文 本 1 

- 幅 位 图 (1536 位 ) % java PictureDump 32 48 < q32x48.bin 


% java RunLength - < q32x48.bin > q32x48.bin.rle 
% java HexDump 16 < q32x48.bin.rle 
4f 07 16 of Of 04 04 09 0d 04 09 06 Oc 03 0c 05 


ob 04 Oc 05 0a 04 0d 05 09 04 Oe 05 09 04 Oe 05 
08 04 Of 05 08 04 Of 05 07 05 Of 05 07 05 Of 05 1536 位 

07 05 of 05 07 05 of 05 07 05 Of 05 07 05 Of 05 % java PictureDump 32 36 < q32x48.rle.bin 
07 05 Of 05 07 05 Of 05 07 06 Oe 05 07 06 0e 05 

08 06 0d 05 08 06 0d 05 09 06 Oc 05 09 07 Ob 05 

0a 07 0a 05 Ob 08 07 06 Oc 14 Oe Ob 02 05 11 05 

05 05 lb 05 lb 05 lb 05 lb 05 lb 05 lb 05 lb 05 

lb 05 lb 05 lb 05 lb 05 1a 07 16 0c 13 0e 41 


1144 位 ~ 一 压 纺 比 1144/1536=74% 


- 幅 分辩 事 更 高 的 位 图 (6144 位 ) 

% java BinaryDump 0 < q64x96.bin 

6144 位 

% java RunLength - < q64x96.bin | java BinaryDump 0 
2296 位 ~ 一 压 编 比 2296/6144=37% 


% java PictureDump 64 96 < q64x96.bin 


6144 位 
% java PictureDump 64 36 < q64x96.rle.bin 


i 


图 5.5.9 使 用 游程 编码 压缩 和 展开 比特 流 


游程 编码 在 许多 场景 中 非常 有 效 ， 但 在 许多 情况 下 我 们 希望 压缩 的 比特 流 并 不 含有 较 长 的 游程 
(例如 典型 的 英文 文档 ) 。 下 面 我 们 来 学 习 两 种 适用 于 多 种 类 型 的 文件 压缩 算法 。 它 们 的 应 用 非常 
广泛 ， 在 从 网 络 上 下 载 文件 时 很 可 能 就 用 到 了 它们 。 


822| 
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5.5.6 震 夫 量 压 纺 6 

我 们 现在 来 学 习 一 种 能 够 大 幅 压 缩 自 然 语 言 文件 空间 ( 以 及 许多 其 他 类 型 文件 ) 的 数据 压缩 技 
术 。 它 的 主要 思想 是 放弃 文本 文件 的 普通 保存 方式 : 不 再 使 用 7 位 或 8 位 二 进 制 数 表示 每 一 个 字符 ， 
而 是 用 较 少 的 比特 表示 出 现 频率 高 的 字符 ， 用 较 多 的 比特 表示 出 现 频率 低 的 字符 。 

为 了 说 明 这 个 概念 , 先 来 看 一 个 简单 的 示例 .假设 需要 将 字符 串 AB R A CA D AB RA 1! 编码 。 
由 7 位 ASCI[ 字 符 编码 我 们 可 以 得 到 比特 字符 串 : 

100000110000101010010100000110000111000001- 

100010010000011000010101001010000010100001. 

要 将 这 段 比特 字符 串 解码 ， 只 需 每 次 读 取 7 位 并 根据 图 5.5.4 的 ASCII 编码 表 将 它 转换 为 字符 。 
在 这 种 标准 的 编码 下 ， 只 出 现 了 一 次 的 D 和 出 现 了 5 次 的 A 所 需 的 比特 数 是 一 样 的 。 霍 夫 曼 压缩 的 
思想 是 通过 用 较 少 的 比特 表示 出 现 频繁 的 字符 而 用 较 多 的 比特 表示 偶尔 出 现 的 字符 来 节省 空间 ， 这 
样 字符 串 所 使 用 的 总 比特 数 就 会 降低 。 
5:5.6.1 ” 变 长 前 缀 码 

和 每 个 字符 所 相关 联 的 编码 都 是 一 个 比特 字符 串 ， 就 好 像 有 一 个 以 字符 为 键 、 比 特 字符 串 为 值 
的 符号 表 一 样 。 我 们 可 以 试 着 将 最 短 的 比特 字符 串 赋 予 最 常用 的 字符 , 将 A 编码 为 0、B 编码 为 1 、 
RR 为 00、C 为 01、D 为 10: ! 为 11。 这样 ABRACADABRA! 的 编码 就 是 010000101001 
000 11。 这 种 表示 方法 只 用 了 17 位 ,而 7 位 的 ASCIL 编码 则 用 了 77 位 。 但 这 种 表示 方法 并 不 完整 ， 
因为 它 需要 空格 来 区 分 字符 。 如 果 没有 空格 ， 比 特 字符 串 就 会 变 成 这 个 样子 : 

01000010100100011 = 

它 也 可 以 被 解码 为 CR R D D C R C B 或 是 其 他 字符 串 。 但 17 位 加 上 10 个 分 隔 符 也 比 标准 的 
编码 要 紧凑 的 多 了 ， 没 有 用 于 编码 的 比特 字符 不 会 在 这 条 消息 中 出 现 。 如 果 所 有 字符 编码 都 不 会 成 
为 其 他 字符 编码 的 前 缓 ， 那 么 就 不 需要 分 隔 符 了 。 下 一 步 我 们 就 要 做 到 这 一 点 。 含 有 这 种 性 质 的 编 
码 规则 叫做 前 缓 码 。 刚 才 我 们 给 出 的 编码 并 不 是 前 级 码 ， 因 为 A 的 编码 0 就 是 R 的 编码 00 的 前 级 。 
例如 ， 如 果 我 们 将 A 编码 为 0、B 为 1111、C 为 110、D 为 100、R 为 1110、! 为 101， 那 么 将 以 下 
长 为 30 的 比特 字符 让 解码 的 方式 就 只 有 ABRACADABRA! 一 种 了 : 

.011111110011001000111111100101 A 

.所 有 的 前 组 码 的 解码 方式 都 和 它 一 样 ， 是 叭 一 的 ( 不 需要 任何 分 隔 符 Dx 因此 前 级 码 被 广泛 应 
用 于 实际 生产 之 中 。 注 意 , 像 7 位 ASCII 编码 这 样 的 定 长 编码 也 是 前 织 码 。 
5.5.6.2 前缀 码 的 单词 查找 树 

表示 前 级 码 的 种 简便 方法 就 是 使 用 单词 可 找 树 (请 见 52 节 ) 。 事 实 上 ， 任意 含有 .M 个 空 链 
接 的 单词 查找 树 都 为 M 个 字符 定义 了 一 种 前 级 码 方法 : 我 们 将 空 链接 替换 为 指向 叶子 结 点 《含有 
两 个 空 链接 的 结 点 ) 的 链接 ， 每 个 叶子 结 点 都 含有 一 个 需要 编码 的 字符 。 这样， 每 个 字符 的 编码 就 
是 从 根 结 点 到 该 结 点 的 路 径 表 示 的 比特 字符 早 ， 其 中 左 链接 表示 0， 右 链接 表示 1。 例如， 图 5.5.10 
显示 了 字符 申 AB RA € A D A B R A+ 中 的 字符 的 两 种 前 级 码 方式 。 上 方 的 例子 就 是 我 们 刚才 提 到 
的 编码 方式 .下 方 的 编码 得 到 的 比特 字符 串 为 ; 


11000111101011100110001111101 


该 字符 串 只 有 29 位 ; 比 上 一 种 少 1 位 。 是 再 存在 能 够 夺 纺 得 更 多 的 单词 查 接 树 呢 我 们 如 何 
才能 找到 压缩 率 最 高 的 前 组 码 ?实际 上 ， 这 些 问题 都 有 一 个 优雅 的 解 。 有 一 种 算法 能 够 为 任意 字符 
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区 


串 构造 一 棵 能 够 将 比特 流 最 小 化 的 单词 查找 树 。 为 了 编译 表 单词 查找 树 的 表示 
公平 比较 各 种 编码 , 还 需要 计算 编码 本 身 所 需 的 空间 ， 
因为 没有 它 就 无 法 将 字符 串 解码 。 你 会 看 到 ， 编 码 的 


方式 是 和 字符 串 相关 的 。 寻 找 最 优 前 组 码 的 通用 方法 


刀口 Nm 允 ,中 
pop 
Es 
Es 





是 D.Huffnan 在 1952 年 发 现 的 ( 当时 他 还 是 个 学 生 ! )， 0 tr EW 
因此 被 称 为 老夫 曼 编码 。 I 
5.5.6.3 概述 


Es 压缩 后 的 比特 字符 串 
使 用 前 级 码 进行 数据 压缩 需要 经 过 5 个 主要 步骤 。 。。 ot1421110011001000illllil00101 。 30 们 


我 们 将 待 编码 的 比特 流 看 作 一 个 字 节 流 并 按照 以 下 方 A 6 RA CA DA B RA ! 
式 使 用 前 组 码 ， 二 








口 构造 一 棵 编码 单词 查找 树 ; 键 值 和 

口 将 该 树 以 字 节 流 的 形式 写 人 输出 以 供 展开 时 使 。 191 

用 ; B 00 9 

口 使 用 该 树 将 字 节 流 编码 为 比特 流 。 中 

在 展开 时 需要 : R 011 

口 读 取 单词 查找 树 〔 保 存在 比特 流 的 开头 ) ; mg | 

口 使 用 该 树 将 比特 流 解码 。 “Tana Dr 一 29 位 

为 了 帮助 你 更 好 地 理解 和 领会 这 个 过 程 , 我 人 将 AB RA CA DAB RA ! En 
按照 难度 逐个 考察 这 些 步骤 。 图 5.5.10 ”两 种 不 同 的 前 组 码 827 











5.5.6.4 ”单词 查找 树 的 结 点 

我 们 首先 过 到 的 是 如 后 面 框 注 所 示 的 Node 类 。 它 和 我 们 曾经 用 来 构造 二 叉 树 和 单词 查找 树 的 
撕 套 类 相似 : 每 个 Node 对 象 都 含有 指向 其 他 Node 对 象 的 1eft 和 right 引用 ， 这 定义 了 单词 查找 
树 的 结构 。 每 个 Node 对 象 还 包含 一 个 实例 变量 freq， 构 造 函 数 会 用 到 它 。 另 一 个 实例 变量 ch 用 
于 表示 叶子 结 点 中 需要 被 编码 的 字符 。 


private static class Node implements Comparable<Node> 
{ // 塞 夫 曼 单词 查找 树 中 的 结 点 

private char ch;  // 内 部 结 点 不 会 使 用 该 变量 

private int freq; // 展开 过 程 不 会 使 用 该 变量 

private final Node left, right; 


Node(char ch, int freq, Node left, Node right) 
{ 


this.ch = ch; 

this.freq = freq; 

this.left = left; 

this.right = right; 
} 


public boolean isLeafO 
{ return left == nul] && right 一 nul1; } 


public int compareTo(Node that) 
{ return this.freq - that.freq; } 


单词 查找 树 的 结 点 表示 
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public static void expand() 
{ 
Node root = readTrieO; 
int N = BinaryStdIn. readInt(O); 
for (int i = 0; i < N; i++) 
{ // 展开 第 i 个 编码 所 对 应 的 字母 
Node x = root; 
while (!x.isLeaf()) 
if (BinaryStdIn.readBoolean()) 
x = x.right; 
else x = x.left; 
BinaryStdOut .write(x.ch); 
} 
BinaryStdOut.closeO; 


前 丝 码 的 展开 (解码 ) 


5.5.6.5 ”使 用 前 缀 码 展开 

有 了 定义 前 级 码 的 单词 查找 树 ， 扩 展 被 编 
码 的 比特 流 就 简单 了 。 后 面 框 注 中 的 expand() 
方法 实现 了 这 个 过 程 。 在 从 标准 输入 中 使 用 后 
文 所 述 的 readTrie() 方法 读 取 了 单词 查找 树 
之 后 ， 用 它 将 比特 流 的 其 余部 分 展开 : 根据 比 
特 流 的 输入 从 根 结 点 开始 向 下 移动 ( 读 取 一 个 
比特 ， 如 果 为 0 则 移动 到 左 子 结 点 ， 如 果 为 1 
则 移动 到 右 子 结 点 ) 。 当 遇 到 叶子 结 点 后 ， 输 
出 该 结 点 的 字符 并 重新 回 到 根 结 点 。 如 果 你 仔 
细 研 究 这 个 方法 在 图 5.5.11 中 的 小 型 前 级 码 示 
例 中 的 表现 ， 就 能 够 理解 这 个 过 程 。 例 如 ， 在 
解码 比特 流 011111001011... 时 ,从 根 结 点 开始 ， 


因为 第 一 个 比特 是 0， 所 以 移动 到 左 子 结 点 ， 输 出 A; 回 到 根 结 点 ， 向 右 子 结 点 移动 3 次 ， 然 后 输 
出 B; 回 到 根 结 点 ， 向 右 子 结 点 移动 两 次 ， 左 子 结 点 移动 1 次 ， 输 出 R; 如 此 往复 。 展 开 的 简单 性 
也 是 前 级 码 ， 特 别 是 替 夫 曼 压缩 算法 流行 的 原因 之 一 。 


5.5.6.6 ”使 用 前 缀 码 压 缩 


在 压缩 时 ， 我 们 使 用 单词 查找 树 定义 的 编码 来 构造 编 
译 表 ， 如 后 面 框 注 中 的 bui1dCodeQ 方法 所 示 。 该 方法 短 
小 而 优雅 , 其 巧妙 之 处 值得 仔细 研究 。 对 于 任意 单词 查找 树 ， 
它 都 能 产生 一 张 将 树 中 的 字符 和 上 比特 字符 串 ( 用 由 0 和 1 
组 成 的 String 字符 串 表 示 ) 相对 应 的 编译 表 。 编 译 表 就 是 
一 张 将 每 个 字符 和 它 的 比特 字符 串 相 关联 的 符号 表 : 为 了 
提升 效率 ， 我 们 使 用 了 一 个 由 字符 索引 的 数组 st[] 而 非 普 


A 


图 5.5.11 一 种 霍 夫 曼 编码 


值 
1010 
0 
111 
1011 


100 
110 


加 Nm> -~ 险 


通 的 符号 表 ， 因为 字符 的 数量 并 不 多 。 在 构造 该 符号 表 时 ， 

bui1dCode() 递归 遍历 整 棵 树 并 为 每 个 结 点 维护 了 一 条 从 根 结 点 到 它 的 路 径 所 对 应 的 二 进 制 字符 串 
(0 表示 左 链 接 ，1 表示 右 链接 ) 。 每 当 到 达 一 个 叶子 结 点 时 ， 算 法 就 将 结 点 的 编码 设 为 该 二 进 制 
字符 串 。 编 译 表 建立 之 后 ， 压 缩 就 很 简单 了 ， 只 需 在 其 中 查找 输入 字符 所 对 应 的 编码 即 可 。 使 用 后 


private static String[] buildCode(Node root) 
{ // 使 用 单词 查找 树 构造 编译 表 
String[] st = new String[R]; 
buildCode(st, root, ""); 
return st; 


private static void buildCode(String[] st, Node x, String s) 


{ // 使 用 单词 查找 树 构造 编译 表 (递归) 
if (x.isLeaf()) 
{ st[x.ch] = s; return; } 
buildCode(st, x.left, s+ 
buildCode(st, x.right, s+ 





通过 前 绥 码 字典 查找 树 构建 编译 表 


面 框 注 中 的 编码 压缩 A B 
RACADABRA!, 首 
先 写 人 0 (A 的 编码 ) ， 
然后 是 111 ( B 的 编码 ) ， 
然后 是 110 ( R 的 编码 ) ， 
等 等 。 框 注 中 的 这 一 段 
代码 完成 的 任务 是 查找 
输入 的 每 个 字符 所 对 应 
的 编码 String 对 象 ， 将 
char 数组 中 字符 转化 为 
0 和 1 的 值 并 写 入 输出 的 
比特 字符 串 中 。 
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5.5.6.7 单词 查找 树 的 构造 
作为 描述 过 程 的 参考 ， 图 5.5.12 展 


for (int i = 0; i < input.length; i++) 


String code = st Cinpat Li; pk 示 了 为 以 下 输入 构造 一 棵 霍 夫 曼 单词 查 
f (int j = 0; j < code.lengti 3 j++ 
ba nA == 29 ” 找 树 的 过 程 : 
BinaryStdOut .write(true); 本 
else BinaryStdOut .writeCfalse); it was the bast 0f rines imas the 
worst of times 

我 们 将 需要 被 编码 的 字符 放 在 叶子 
使 用 编译 家 的 压 纺 结 点 中 并 在 每 个 结 点 中 维护 了 一 个 名 为 


freq 的 实例 变量 来 表示 以 它 为 根 结 点 的 子 树 中 的 所 有 字符 出 现 的 频率 。 构 造 的 第 一 步 是 创建 一 片 由 许 
多 只 有 一 个 结 点 〈 即 叶 子 结 点 ) 的 树 所 组 成 的 森林 。 每 棵 树 都 表示 输入 流 中 的 一 个 字符 ， 每 个 结 点 中 的 
freq 变量 的 值 都 表示 了 它 在 输入 流 中 的 出 现 频率 。 在 我 们 的 例子 中 ,输入 含有 8 个 t，5 个 e，11 个 空 
格 等 (特别 提示 : 为 了 得 到 这 些 频率 ,需要 读 取 整 个 输入 流 一 一 符 夫 曼 编码 是 一 个 两 轮 算 法 ， 因 为 需要 
再 次 读 取 输入 流 才能 压缩 它 ) 。 接 下 来 自 底 向 上 根据 频率 构造 这 棵 编码 的 单词 查找 树 。 在 构造 时 将 它 看 
作 一 棵 结 点 中 含有 频率 信息 的 二 叉 树 ; 在 构造 后 ， 我 们 才 将 它 看 作 -- 棵 用 于 编码 的 单词 查找 树 。 构 造 过 
程 如 下 : 首先 找到 两 个 频率 最 小 的 结 点 ， 然 后 创建 一 个 以 二 者 为 子 结 点 的 新 结 点 〔 新 结 点 的 频率 值 为 它 
的 两 个 子 结 点 的 频率 值 之 和 ) 。 这 个 操作 会 将 森林 中 树 的 数量 减 一 。 然 后 不 断 重复 这 个 过 程 ， 找 到 森林 
中 的 两 棵 频率 最 小 的 树 并 用 相同 的 方式 创建 一 个 新 的 结 点 。 用 优先 队列 能 够 轻易 实现 这 个 过 程 ; 如 左下 
框 注 的 buildTrie 方 法 所 示 。 ( 为 了 说 明 这 个 过 程 ， 图 5.5.12 中 的 所 有 单词 查找 树 是 有 序 的 。 ) 随 着 
这 个 过 程 的 继续 ， 我 们 构造 的 单词 查找 树 将 越 来 越 大 ， 而 森林 中 的 树 会 越 来 越 少 ( 每 一 步 都 会 删除 两 棵 
树 ， 添 加 一 棵 新 树 ) 。 最 终 ， 所 有 的 结 点 会 被 合并 为 一 棵 单独 的 单词 查找 树 。 这 棵 树 中 的 叶子 结 点 为 所 
有 待 编码 的 字符 和 它们 在 输入 中 出 现 的 频率 ， 每 个 非 叶 子 结 点 中 的 频率 值 为 它 的 两 个 子 结 点 之 和 。 频 率 


较 低 的 结 点 会 被 安排 
在 树 的 底层 ， 而 高 频 
率 的 结 点 则 会 被 安排 ris static Node buildTrie(int[] freq) 
在 根 结 点 附近 的 地 方 。 4 ph 二 
nPQ<Node> pq = new MinpQ<Node>(); 
根 结 点 的 频率 值 等 于 for (char c ee CcC<R; c+t+) 
输入 中 的 字符 数量 。 if (freq[c] > 0) 
因为 这 是 一 棵 二 又 村 pq.insert(new NodeCc, freq[c], null, nu11)); 
pe while (pq.sizeO > 1) 
且 字 符 仅 存在 于 叶子 { /7 信守 汪 要 及 庆 小 的 村 
结 点 中 ， 所 以 就 定义 Node x = pq.delMinO; 
e Node y = pq.delMinO; 
了 这 些 字符 的 前 级 码 。 Na new NodeC'\O', x.freq + y.freq, x, y); 
使 用 buildcodeQ 方 pq.insert(parent); 
法 为 这 个 示例 构造 的 


return pq.delMinO; 
编译 表 ( 如 图 5513 上 
的 右 侧 所 示 】 ,得 到 ， 
了 以 下 输出 : - 


2 10111110100101101110001111110010000110101100- 
01001110100111100001111101111010000100011011- 
T1101001011011100011111100100001001000111010- 
01001110100111100001111101111010000100101010. 


-构造 一 棵 霍 夫 曼 编码 单词 查找 树 
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这 个 比特 字符 串 长 176 位 ， 相 比 用 标准 的 8 位 ASCII 编码 得 到 的 51 个 字符 的 408 位 编码 节省 了 
57% (没有 计算 构造 编码 的 开销 ， 下 面 马 上 讨论 ) 。 另 外 ， 因 为 它 是 一 个 霍 夫 受 编码 ， 所 以 不 存在 


其 他 能 够 用 更 少 的 比特 将 输入 编码 的 前 级 码 了 。 - 





图 5.5.12 构造 一 棵 截 夫 曼 编 码 单词 查找 树 
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译 表 
键 值 
LF i01010 
sp 01 
a ou 
b 1001 
eo00 
fom 
2001 
1 0 
00 
日 ”oo 
lolog 
> ss 00 
tm 
路 径 上 的 标签 依次 w oo 
为 11010， 因 此 11010 
M 的 编码 


图 5.5.13 字符 串 “twps the best of times it was the worst of vimes LE” 的 稚 夫 曼 编码 


5.5.6.8 ”最 优 性 y 
我 们 已 经 看 到 ， 在 机 中 频率 的 字符 攻占 的 字符 高 根 结 点 更 过 因此 编码 所 需 的 比特 更 
一 少 ， 所 以 这 种 编码 的 方式 更 好 。 但 为 什么 这 是 一 种 最 优 的 前 级 码 呢 ? 要 回答 这 个 问题 ， 首 先 要 定 
义 树 的 加 权 外 部 路 径 长 度 这 个 概念 ， EN (频率 ) 和 深度 (请 见 1.5.2.5 节 ) |82: 
之 积 的 和 。 








在 示例 中 ， 有 一 个 叶子 结 点 的 距离 为 2 ( SP， 出 现 频率 为 11 ) ， 三 个 距离 为 3 (e、s 和 t， 总 
频率 为 19 ) ， 三 个 距离 为 4 (w、o 和 i， 总 频率 为 10 ) ， 五 个 距离 为 5(r、f、h, m 和 a， 总 频率 
为 9) ， 两 个 距离 为 6 ( LF 和 b， 总 频率 为 2) ， 因 此 综合 为 2x 11+3 x 19+4 x 10+5 x 9+6 x 2=176。 
这 与 输出 的 比特 字符 串 的 长 度 预 期 相等 。 
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现在 ， 假 设 (si,f1),…,(5/) 有 一 棵 最 优 的 高 度 为 万 的 单词 查找 树 T。 注意 ，(GGu7) 和 (sn 记 ) 的 
深度 必然 都 是 矿 ( 否则 将 它们 和 深度 为 万 的 结 点 交换 就 可 以 得 到 一 哥 加 权 外 部 路 径 长 度 更 小 的 
单词 查找 树 ) 。 另 外 ， 通 过 将 (sy /)) 和 (ss 太 ) 的 兄弟 结 点 交换 可 以 假设 ss7) 和 (sf) 是 兄 
弟 结 点 。 现在， 考虑 将 它们 的 父 结 点 薪 换 为 (s*, 所 .j) 所 得 到 的 树 T*。 注 意 〔 用 同 拜 的 方法 可 以 
得 到 ) WT=WAT*)+(f tf)。 

根据 归纳 法 ，7i* 是 最 优 的 ， 即 PXTw*) < FAT*)。 因 此 有 : 


WOTW=WT +O 1) < WT + HW 
因为 了 是 最 优 的 ， 等 号 必然 成 立 ， 因 此 Tw 也 是 最 优 的 。 


每 当 一 个 结 点 被 选中 时 ， 也 可 能 有 若干 个 结 点 和 它 的 权重 相同 。 黎 夫 曼 算法 并 没有 说 明 如 
何 区 别 它们 ,也 没有 说 明 应 该 如 何 确定 子 结 点 的 左右 位 置 。 不 同 的 选择 会 得 到 不 同 的 霍 夫 曼 编码 ， 
但 用 它们 将 信息 编码 所 得 到 的 比特 字符 串 在 所 有 前 级 码 中 都 是 最 优 的 。 
5.5.6.9” 写 入 和 读 取 单词 查找 树 

我 们 已 经 强调 过 ， 图 5.5.13 中 所 显示 出 的 空间 节约 并 不 准确 ， 因 为 没有 单词 查找 树 被 压缩 的 比特 
流 是 无 法 被 解码 的 。 所 以 ， 我 们 必须 将 输出 比特 字符 串 中 的 单词 查找 树 的 成 本 考虑 进来 。 对 于 较 长 的 
输入 ， 这 个 成 本 相对 较 小 。 但 为 了 保证 数据 压缩 流程 的 完整 ， 必 须 在 压缩 时 将 树 写 人 比特 流 并 在 展开 
时 读 取 它 。 怎 样 才 能 将 一 棵 单词 查找 树 编码 为 比特 流 并 展开 它 呢 ? 其 实 ， 只 要 基于 单词 查找 树 的 前 序 
遍历 ， 这 两 个 任务 都 只 需要 很 简单 的 递归 即 可 完成 。 下 面 框 注 中 的 writeTrie() 方法 会 按照 前 序 遍 
历 单词 查找 树 : 当 它 访问 的 是 一 个 内 部 结 点 时 ， 它 会 写 人 一 个 比特 0; 当 它 访问 的 是 一 个 叶子 结 点 时 ， 
它 会 写 人 一 个 比特 1， 紧 接着 是 该 叶子 结 点 中 字符 的 8 位 ASCII 编码 。A BRACADABRA 的 - 


震 夫 曼 树 的 比特 字符 串 编码 如 图 5.5.14 所 示 。 第 一 位 是 0， 对 应 着 根 结 点 ; 下 一 个 遇 到 是 含有 A 的 叶 . . 


子 结 点 ， 因 此 下 一 位 为 1、 紧 接着 是 01000001， 即 “A” 的 8 位 ASCII 编码 。 下 两 位 均 为 0， 因 为 过 
到 的 都 是 两 个 内 部 结 点 ， 等 等 。 相 应 的 readTrieO) 如 框 注 所 示 。 它 从 比特 字符 串 中 重新 构造 了 单词 


-查找 树 : 首先 读 取 一 个 比特 以 得 到 当前 结 点 的 类 型 ， 如 果 是 叶子 结 点 比特 为 1 ) 那么 就 读 取 字 符 的 


编码 并 创建 一 个 叶子 结 点 ; 如 果 是 内 部 结 点 ( 比特 为 0) 那么 就 创建 一 个 内 部 结 点 并 .( 递归 地 ) 继续 


_ 构造 它 的 左右 子 树 。 请 一 定 要 理解 这 些 方法 : 它们 的 简洁 性 有 时 是 有 次 骗 性 的 。 


private static void 

writeTrie(Node x) 

人 { // 输出 单词 查找 树 的 比特 字符 囊 
if (x.isLeaf(O)) 


BinaryStdOut .write(true); 
~ BinaryStdOut.write(x.ch); 





return; 

é " 了 结 

BinaryStdOut.write(false); Wie 人 
writeTrie(x. left); 010100000io 101000100% 1000010101010000110101010010101000010 
writeTrie(x.right); 性 t 


¥ 23 5 + 一 -内 部 结 点 


办 -将 单词 查找 树 写 为 比特 字符 串 图 5.5.14 使 用 前 序 近 历 将 一 棵 单词 查找 树 编 码 为 比特 流 
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private static Node readTrieO 


if (BinaryStdIn.readBoolean()) 
return new Node(BinaryStdIn.readChar(), 0, null, nu11); 
return new Node('\0', 0, readTrie(), readTrie()); 
} 


从 比特 流 的 前 序 表示 中 重建 单词 查找 树 


5.5.6.10 ” 霍 夫 曼 压 缩 的 实现 

算法 5.10 加 上 之 前 讨论 过 的 bui1dCodeO) 、 buildTrie(), readTrie() 和 write-Trie() (以 
及 一 开始 展示 的 expand() 方法 ) ， 就 是 霍 夫 曼 压缩 算法 的 完整 实现 。 为 了 展开 前 文 对 算法 的 概述 ， 
我 们 将 需要 压缩 的 比特 流 看 作 8 位 编码 的 Char 值 流 并 将 它 按照 如 下 方法 压缩 : 

口 读 取 输入 ; 

口 将 输入 中 的 每 个 char 值 的 出 现 频率 制 成 表格 ; 

口 根据 频率 构造 相应 的 霍 夫 曼 编码 树 ; 

口 构造 编译 表 ， 将 输入 中 的 每 个 char 值 和 一 个 比特 字符 串 相关 联 ; 

口 将 单词 查找 树 编码 为 比特 字符 串 并 写 人 输出 流 ; 

口 将 单词 总 数 编码 为 比特 字符 串 并 写 入 输出 流 ; 

口 使 用 编译 表 翻 译 每 个 输入 字符 。 

要 展开 一 条 编码 过 的 比特 流 ， 步 骤 如 下 : 

口 读 取 单词 查找 树 ( 编码 在 比特 流 的 开头 ) ; 

口 读 取 需 要 解码 的 字符 数量 ; 

口 使 用 单词 查找 树 将 比特 流 解码 。 

逢 夫 曼 压缩 算法 含有 4 个 递归 方法 处 理 单词 查找 树 ， 整 个 压缩 过 程 需要 7 步 ， 是 我 们 学 习 的 较 


为 复杂 的 算法 之 一 ， 请 见 图 5.5.15。 但 因为 效率 高 ， 它 也 是 应 用 最 广泛 的 算法 之 一 。 835 














算法 5.10 霍 夫 曼 压缩 





public class Huffman 


{ 


private static int R = 256;  // ASCII 字 母 表 
// Node 内 部 类 请 见 5.5.6.4 节 框 注 “ 昔 词 查找 树 的 结 点 表示 ” 
// 其 他 辅助 方法 和 expand() 方 法 请 见 正文 


public static void compress() 
{ 
// 读 取 输入 
String s = BinaryStdIn. readString(); 
char[] input = s.toCharArrayO; 
// 统计 频率 
int[] freq = new int[R]; 
for (int i = 0; 1 < input.length; i++) 
freq[input [i]]++; 
// 构造 鹤 夫 受 编码 树 
Node root = buildTrie(freq); 
// (着 归 地 ) 构造 编译 表 
String[] st = new String[R]; 
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buildCode(st, root, ""); 


V/A (递归 地 ) 打印 解码 用 的 单词 查找 树 
writeTrie(root); 


// 打印 字符 总 数 
BinaryStdOut .writeCinput.1ength); 


// 使 用 害 夫 受 编码 处 理 输入 
for (int i = 0; i < input.1length; i++) 
{ 
“String code = st[input[i]]; 
for (int j = 0; j < code.length(); j++) 
if (code.charAt(j) == "1") 
BinaryStdOut .write(true); 
else BinaryStdOut.write(false); 
} 
- “BinaryStdOut.closeQO); 
} 








} 
836| 这 段 逢 夫 曼 编码 算法 的 实现 构造 了 一 棵 清晰 的 编码 单词 查找 树 并 使 用 了 前 文 所 述 的 各 种 辅助 方法 。 





测试 用 例 (96 位 ) 


% more abra.txt 
ABRACADABRA! 


% java Huffman - < abra.txt | java BinaryDump 60 

”010100000100101000100010000101010100001101010100101010000100 
000000000000000000000000000110001111100101101000111110010100 
120 位 ~ 一 压缩 率 120/96=125X%， 原 因 是 字典 查找 树 需要 59 位 ， 字 符 总 数 需 要 32 位 


正文 中 的 例子 408 位) 


% more tinytinyTale. txt 
it was the best of times it was the worst of times 


% java Huffman - < tinytinyTale.txt | java BinaryDump 64 * 
0001011001010101110111101101111100100000001011100110010111001001 
0000101010110001010110100100010110011010110100001011011011011000 
0110111010000000000000000000000000000110011101111101001011011100 
0111111001000011010110001001110100111100001111101111010000100011 
0111110100101101110001111110010000100100011101001001110100111100 
00111110111101000010010101000000 

352 位 。 ”一 压缩 率 352/408=86%， 尽 管 字典 查找 树 占用 了 137 位 ， 字 符 总 数 占用 了 32 位 


% java Huffman - < tinytinyTale.txt | java Huffman + 
it was the best of times it was the worst of times 


《双城记 》 的 第 一 章 
% java PictureDump 512 90 < medTale.txt 
本 2 站 和 





图 5.5.15 使 用 答 夫 曼 编码 压 绾 和 展开 字 节 流 
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45056 位 
%j 





23912 位 一 一 压缩 率 23912/45056=53% 


《双城记 》 全 文 
% java BinaryDump 0 < tale.txt 
5812552 位 


% java Huffman - < tale.txt > tale.txt.huf 
% java BinaryDump 0 < tale.txt.huf 
3043928 位 一 一 压缩 率 3043928/5812552=52% 





图 5.5.15 使 用 堆 夫 曼 编码 压缩 和 展开 字 节 流 ( 续 ) 837 
答 夫 曼 压 缩 算法 流行 的 一 个 原因 是 ， 不 仅 对 于 自然 语言 文本 ， 它 对 各 种 类 型 的 文件 都 有 效果 。 











我 们 在 编写 方法 的 代码 时 十 分 小 心 ， 以 保证 它 能 够 正确 处 理 8 位 字符 可 能 表示 的 任意 8 位 值 。 换 名 


话说 , 我 们 可 以 将 
显示 了 这 些 例子 





用 于 任何 字 节 流 。 对 于 我 们 在 本 节 中 讨论 过 的 其 他 几 种 类 型 的 文件 , 图 5.5.16 
说 明了 逢 夫 曼 压缩 与 定 长 编码 以 及 游程 编码 相 比 仍然 十 分 具有 竞争 力 ， 尽 管 这 些 





算法 是 为 某 些 类 型 的 文件 专门 设计 的 。 理解 替 夫 曼 编码 在 这 些 领域 的 优越 性 能 是 十 分 有 帮助 的 。 对 


于 基因 组 数据 ， 逢 夫 曼 压 





实际 上 发 现 了 双 位 编码 。 因 为 4 种 字符 的 出 现 频率 基本 相同 ， 因 此 逢 夫 


曼 编码 树 是 平衡 的 ， 每 个 字符 分 配 到 的 都 是 一 个 两 位 的 编码 。 在 游程 编码 的 示例 中 ，00000000 
和 11111111 都 可 能 是 出 现 最 频繁 的 字符 ， 因 此 它们 的 编码 可 能 只 有 2 ~ 3 位 ， 这 样 就 能 够 大 幅 
度 地 压缩 输入 数据 。 


病毒 (50 000 位 》 





< genomeVirus.txt | java PictureDump 512 25 









% java Genome 







Ne 
12536 位 
% java Huffman - < genomeVirus.txt | java PictureDump 512 25 


和 2 





12576 bits -一 稚 夫 曼 编 码 只 比 自 定义 的 双 位 编码 多 使 用 了 40 个 比 


“位 图 (1536 位 ) 
% java RunLength - < q32x48.bin | java BinaryDump 0 
1144 位 


% java Huffman  - < q32x48.bin | java BinaryDump 0 
816 位 。 ~ 一 誉 夫 曼 压 缩 算法 比 自 定义 算法 使 用 的 比特 数 少 29% 


更 高 分 辩 率 的 位 图 (6144 位 ) 
% java RunLength - < q64x96.bin | java BinaryDump 0 
2296 位 


% java Huffman  - < q64x96.bin | java BinaryDump 0 
2032 位 。 ~ 一 对 于 更 高 的 分 辩 素 ， 差 距 缩小 到 11% 





二 图 5.5.16 用 霍 夫 曼 编码 压 


缩 和 展开 基因 组 和 位 图 数据 人 
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除了 乱 夫 曼 压缩 算法 ， 另 一 种 值得 一 提 的 选择 是 20 世纪 70 年 代 末 至 80 年 代 初 由 ALempel、 
Ziv 和 Weleh 发 明 的 一 种 算法 。 它 的 应 用 也 非常 广泛 ， 因 为 它 的 实现 简单 ， 而 且 也 适用 于 多 种 类 
型 的 文件 。 

这 种 算法 的 基本 思想 和 霍 夫 受 编码 的 基本 思想 相反 。 霍 夫 曼 算法 是 为 输入 中 的 定 长 模式 产生 一 
张 变 长 的 编码 编译 表 ， 但 这 种 方法 是 为 输入 中 的 变 长 模式 生成 一 张 定 长 的 编码 编译 表 。 这 种 方法 的 
另 一 种 令 人 惊讶 的 特性 在 于 ， 和 和 霍 夫 曼 编码 不 同 ， 输 出 中 不 需要 附 上 这 张 编译 表 。 
5.5.6.11 LZW 压缩 算法 

为 了 说 明 这 种 算法 的 基本 思想 ， 先 来 看 一 个 数据 压缩 的 示例 。 假 设 需要 读 取 一 列 由 7 位 ASCII 
编码 的 字符 组 成 的 输入 流 并 将 它们 写 为 一 条 8 位 字 节 的 输出 流 。 ( 在 实际 应 用 中 使 用 的 参数 值 一 般 
都 会 更 大 一 一 实 现 中 使 用 的 是 8 位 的 输入 和 12 位 的 输出 。 ) 我 们 将 输入 字 节 称 为 字符 ， 输 入 的 字 
节 序列 称 为 字符 束 ， 输 出 字 节 称 为 编码 ， 尽 管 这 些 术语 在 其 他 情况 下 的 意义 有 所 不 同 。LZW 压缩 
算法 的 基础 是 维护 一 张 字符 串 键 和 ( 定 长 ) 编码 的 编译 表 。 在 符号 表 中 将 128 个 单字 符 键 的 值 初始 
化 为 8 位 编码 ， 即 在 每 个 字符 的 7 位 值 前 添加 一 个 0。 为 了 简单 明了 ， 用 十 六 进 制 数字 来 表示 编码 
的 值 ， 这 样 ASCII 的 A 的 编码 即 为 41，R 的 编码 为 52， 等 等 。 我 们 将 80 保留 为 文件 结束 的 标志 并 
将 其 余 的 编码 值 (81 ~ FF ) 分 配给 在 输入 中 过 到 的 各 种 子 字符 串 ， 即 从 81 开始 不 断 为 新 键 赋予 更 
大 的 编码 值 。 为 了 压缩 数据 ， 只 要 输入 还 未 结束 ， 就 会 不 断 进行 以 下 操作 

口 找 出 未 处 理 的 输入 在 符号 表 中 最 长 的 前 级 字符 串 s; 

口 输出 s 的 8 位 值 (编码 ) ; < 

口 继续 扫描 s 之 后 的 一 个 字符 c; 

口 在 符号 表 中 将 stc (连接 s 和 < ) 的 值 设 为 下 一 个 编码 值 。 

在 后 面 的 几 步 中 ， 我 们 需要 继续 查看 输 信 中 的 下 一 个 字符 才能 构造 字典 中 的 下 一 个 条 目 ， 因 
此 将 这 个 字符 c 称 为 前 瞎 (lookahead ) 字符 -现在 ， 当 用 尽 了 编码 值 (将 FF 赋予 了 某 个 字符 串 ) 











3 引 之 后 暂时 只 能 停止 向 符号 表 中 添加 新 的 条 目 -== 我 们 会 在 稍 后 讨论 其 他 策略 。 





5.5.6.12 ”LZW 压缩 举例 

下 表 所 示 的 是 LZW 算法 压缩 样 例 输入 A BR A CA DA BRA BRA BR A 的 详细 过 程 。 
对 于 前 7 个 字符 ， 匹 配 的 最 长 前 组 仅 为 1 个 字符 ， 因 此 输出 这 些 字符 所 对 应 的 编码 ， 并 将 编码 81 
到 87 和 产生 的 7 个 两 个 字符 的 字符 串 相关 联 。 然 后 我 们 发 现 AB 匹配 了 输入 的 前 绥 于 是 输出 81 
并 将 ABR 添加 到 符号 表 中 ) ， 然 后 是 RA (输出 83 并 添加 RAB ) ，BR (输出 82 并 添加 BRA ) 和 ABR 
(输出 88 并 添加 ABRA ) ， 最 后 只 剩 下 A (输出 41， 请 见 图 5.5.17 ) 。 


输入 A B R A 5 A 大 B R A B R A 8 R A 


ABRSS 
RAB 89 


EOF 
匹配 | 
输出 4 人 2 2 4 1 83 82 88 41 80 
人 
值 
AB 81 AB 81 
BR82 BR 82 
输入 的 RAB3 RA 83 
AC84 AC 84 
子 字符 串 Lzw cass CA 85 
编码 AD 86 AD 86 
DA87 DA 87 

前 瞻 字 符 

RAB 

BRA 

ABRA 


BRASA 
ABR A 88 


图 5.5.17 LZW 算 法 压缩 ABRACADABRABRABRA 
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输入 为 17 个 7 位 的 ASCII 字符， 总 共 119 位 ; 输出 为 12 个 8 位 的 编码 ， 总 共 96 位 一 一 压缩 


比 为 82%， 即 使 这 只 是 个 很 小 的 例子 。 
5.5.6.13 ”LZW 的 单词 查找 树 

LZW 压缩 算法 含有 两 种 符号 表 操 作 : 

口 找到 输入 和 符号 表 的 所 有 键 的 最 长 前 级 匹配 ; 


口 将 匹配 的 键 和 前 瞻 字 符 相连 得 到 一 个 新 键 ; 将 新 键 和 下 一 个 编码 关联 并 添加 到 符号 表 中 。 


5.2 节 中 介绍 的 单词 查找 树 数据 结构 完全 是 为 这 些 
操作 量 身 定做 的 。 对 于 上 一 个 示例 ， 它 的 单词 查找 树 表 
示 如 图 5.5.18 所 示 。 要 查找 最 长 前 缀 匹配 ， 从 根 结 点 开 
始 遍历 树 ， 按 照 结 点 的 标签 和 输入 字符 匹配 ;在 添加 二 
个 新 编码 时 ， 先 创建 一 个 用 新 编码 和 前 瞻 字 符 标记 的 结 
点 并 将 它 和 查找 结束 的 结 点 相关 联 。 在 实践 中 ,为 了 节 
省 空间 我 们 使 用 的 是 5.2 节 中 介绍 的 三 向 单词 查找 树 。 
值得 一 提 的 是 这 里 对 单词 查找 树 的 使 用 与 堆 夫 曼 编码 
的 不 同 : 对 于 替 夫 曼 编码 使 用 单词 查找 树 是 因为 任意 
编码 都 不 会 是 其 他 编码 的 前 级 ; 但 对 于 LZW 算法 ,使 
用 单词 查找 树 是 因为 每 个 由 输入 字符 申 得 到 的 键 的 前 
级 也 都 是 符号 表 中 的 一 个 键 。 
5.5.6.14 ”LZW 压缩 的 展开 





图 5.5.18 LZW 算法 的 编译 表 的 单词 查找 
5 树 表示 


如 示例 所 示 ，LZW 压缩 的 展开 所 需 的 输入 是 一 系列 8 位 编码 ， 而 输出 则 是 -- 个 7 位 ASCIL 字 
符 组 成 的 字符 串 。 在 展开 时 ， 我 们 会 维护 一 张 关联 字符 串 和 编码 值 的 符号 表 ( 这 张 表 的 逆 表 是 压缩 
时 所 用 的 符号 表 ) 5 在 这 张 表 中 加 入 .00 到 7F 和 所 有 单个 ASCII 字符 的 字符 串 的 关联 系 目 ; 将 第 一 
个 未 关联 的 编码 值 设 为 81 ( 80 保留 为 文件 结尾 的 标记 ) ,将 保存 了 当前 字符 串 的 变量 val 设 为 含 
有 第 一 个 字符 的 字符 串 ， 在 过 到 编码 80 ( 文件 结束 ) 之 前 不 断 进 行 以 下 操作 ; 


口 输出 当前 字符 串 val; 
口 从 输入 中 读 取 一 个 编码 x; 
口 在 符号 表 中 将 s 设 为 和 x 相关 联 的 值 ; 


口 -在 符号 表 中 将 下 一 个 未 分 配 的 编码 值 设 为 val+c， 其 中 c 为 s 的 首 字母 ; 


口 将 当前 字符 串 val 设 为 s。 


这 个 过 程 比 压缩 更 加 复杂 ， 原 因 来 自 于 前 瞻 字 符 : 需要 读 取 下 一 个 编码 来 得 到 和 它 相 关联 的 字 
符 串 的 首 字母 , 这 使 得 整个 过 程 不 同步 。 对 于 前 7 个 编码 , 只 需要 在 符号 表 中 查找 并 输出 相应 的 字符 ， 
然后 多 读 取 一 个 字符 并 在 符号 表 中 添加 一 个 两 个 字符 的 字符 串 的 条 目 。 这 和 之 前 是 相同 的 。 然 后 读 
到 81 (输出 AB 并 向 符号 表 中 添加 ABR ) ， 然 后 是 83 ( 输出 RA 并 添加 RAB ) ，82 ( 输出 BR 并 添加 
BRA ) ，88( 输出 ABR 并 添加 ABRA ) ,然后 只 剩 下 41。 最终 会 遇 到 文件 结束 的 标记 80 ( 因此 输出 A ) 。 


这 个 过 程 结束 后 ， 就 已 经 如 期 写 出 了 原始 的 输入 ， 并 且 构 造 了 一 张 和 压 缩 时 相同 的 符号 表 ( 只 是 键 


和 值 的 位 置 对 调 了 ,请 见 图 5.5.19 ) 。 注 意 , 我 们 也 可 以 使 用 一 个 简单 的 字符 串 数组 来 表示 符号 表 ， 


索引 为 编码 。 
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81AB 81 AB 


Lzw 1 89RAB 89 


日 
S 
瘟 里 如 间 号 


子 字符 囊 88 ABR A 88 











841 图 5.5.19 LZW 算法 对 41 42 52 41 43 41 44 81 83 82 88 41 80 的 展开 





算法 5.11 LZW 算法 的 压缩 





public class LZW 


{ 
private static final int R = 256; // 输入 字符 数 
private static final int L = 4096; // 编码 总 数 =2A12 
private static final int W = 12; // 编码 宽度 


public static void compress() 

{ 
String input = BinaryStdIn.readStringO); 
TST<Integer> st = new TST<Integer>(); 





for (int 1 = i < Ri i++) 
St.put("”” + (char) i, i); 
int code = R+1; // R 为 文件 结 来 (EOF) 的 编码 


while (input. length() > 0) 

{ 
String s = st.1longestPrefixOf(input); // 找到 匹配 的 最 关 前 缓 
BinaryStdOut.write(st.get(s)，W); 。。 // 打印 出 5 的 编码 


int t = s.lengthO; 
if (t < input.length() && code < L)  // 将 s 加 入 符号 表 


st.put(input.substring(0, t + 1), code++); 


input = input.substring(t); // 从 输入 中 读 取 5 
} 
BinaryStdOut .write(R, W); // 写 入 文件 结束 标记 
BinaryStdOut.close(); 


} 


public static void expand() 
// 请 见 算法 5.11( 续 ) 
} 
Lempel-Ziv-Welch 数据 压缩 算法 的 这 份 实现 的 输入 为 8 位 的 字 节 流 ， 输 出 为 12 位 编码 ， 适 用 于 任意 
大 小 的 文件 。 对 于 较 小 的 样 例 输入 , 它 所 产生 的 编码 和 在 正文 中 所 讨论 的 类 似 : 单字 符 的 编码 的 开头 为 0， 
其 他 编码 从 100 开始 。 


5.5 数据 压缩 二 553 


% more abraLZW.txt 
ABRACADABRABRABRA 


% java LZW - < abraLZw.txt | java HexDump 20 
04 10 42 05 20 41 04 30 41 04 41 01 10 31 02 10 80 41 10 00 
160 位 





5.5.6.15 ”特殊 情况 

在 刚才 描述 的 过 程 中 ， 存 在 这 一 个 小 小 的 问题 。 常 常 只 有 基于 以 上 描述 实现 了 这 个 过 程 的 同学 
(以 及 有 经 验 的 程序 员 ! ) 才能 发 现 它 。 这 个 问题 就 是 前 脆 过 程 所 得 到 的 字符 可 能 和 当前 子 字符 串 
的 开头 字符 相同 ， 如 图 5.5.20 所 示 。 在 这 个 例子 中 ， 输 入 字符 串 : 

ABABABA 
如 图 5.5.20 上 方 所 示 ， 被 压缩 得 到 的 输出 编码 为 : 
41 42 81 83 80 
在 展开 时 ， 首 先 会 得 到 编码 41 并 输出 A， 然 


后 读 取 和 2 得 到 前 用 字符 并 将 AB 和 81 插 入 符号 表 ; Tt 
输出 42 所 对 应 的 B， 读 取 81 得 到 前 瞻 字 符 并 将 rr 
输出 41 42 81 83 80 
BA 和 82 插入 符号 表 ; 输出 81 所 对 应 的 AB。 到 的 证 
目前 为 止 事情 进展 得 不 错 。 但 当 我 们 接 下 来 取得 am 江 和 
了 编码 83 并 和 希望 得 到 前 瞻 字 符 时 ， 就 被 卡 住 了 ， haA 8 ABA 83 
因为 读 取 编码 所 要 补 全 的 符号 表 条 目 正 是 83 ! 幸 Ns 
运 的 是 ， 检 查 (只 有 在 读 取 的 编码 和 需要 完成 的 条 本 42 三 83 80 
编码 条 目 相同 时 才 会 出 现 ) 并 修正 ( 此 时 ， 前 瞻 a ae ee 
字符 必然 是 当前 字符 串 的 首 字母 ， 因 为 它 就 是 下 | 需要 前半 
个 将 被 输出 的 字符 ) 这 种 情况 并 不 困难 。 在 这 个 机 
例子 中 ,前瞻 字符 必然 是 A ( ABA 的 首 字母 ) 。 因 下 个 输出 字符 邯 前 只 字符 


此 ， 下 一 个 被 输出 的 字符 串 和 符号 表 中 83 到 值 都 图 5.5.20 LZW 算法 的 扩展 : 特殊 情况 
是 ABA。 
5.5.6.16 实现 

经 过 这 些 描述 之 后 ， 实 现 LZW 编码 就 很 简单 了 ， 如 算法 5.11 所 示 (expand() 方法 的 实现 请 
见 算法 5.11 ( 续 ) ) 。 这 段 实现 接受 8 位 字 节 流 作为 输入 因此 能 压缩 任意 文件 ， 而 不 仅仅 是 字符 
串 ) ， 并 产生 12 位 编码 的 输出 流 ( 因此 字典 会 非常 大 ， 压 缩 率 也 会 更 好 ) 。 这 些 值 指定 在 【final 
修饰 的 ) 实例 变量 R、L 和 W 中。 在 compress( 方法 中 使 用 了 一 棵 三 向 单词 查找 树 (请 见 5.2 节 ) 
来 表示 编译 表 ( 利用 单词 查找 树 来 支持 高 效 的 1ongestPrefixof() 操作 ) ， 在 expand() 方法 中 
使 用 了 一 个 字符 串 数组 来 表示 逆向 编译 表 。 这 样 ，compress() 和 expand() 方法 的 代码 就 不 完全 
与 正文 中 的 描述 一 一 对 应 了 。 这 些 方法 非常 高 效 。 对 于 某 些 文件 ， 我 们 还 可 以 通过 在 编译 表 满 时 将 
其 清空 并 重用 全 部 编码 来 改进 它们 。 这 些 改进 以 及 评估 它们 的 性 能 所 需 的 实验 都 留 作 本 节 最 后 的 
练习 。 
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算法 5.11 ( 续 ) ”LZW 算法 的 展开 





public static void expand() 
ff > 
String[] st = new String[L]; 
int 二; // 下 一 个 待 补 全 的 编码 什 
for G = 0; 1 <R; i++) // 用 字符 初始 化 编译 表 
~ st[i] = "" + Cchar). 1; 
st[i++] = // (未 使 用 ) 文件 结束 标记 (EOF) 的 前 脸 字符 








int codeword = BinaryStdIn. readInt(W); 

String val = st[codeword]; 

while (true) 

{ 
BinaryStdOut.write(val)’; // 输出 当前 于 字符 囊 
codeword = BinaryStdIn. readInt(W); 
if (codeword == R) break; 


- String s = st[codeword]; 7/ 获取 下 一 个 编码 
if (i =- codeword) // 如 果 前 用 字符 不 可 用 
s = val + val.charAt(0); //” 根据 上 一 个 字符 市 的 首 字母 得 到 编码 的 字符 于 
if G < D 
st[i++] = val + S.CharAt(0);.// 为 编译 表 添加 新 的 条 目 
val =- si -7/ 更 新 当前 编码 


Binary$tdOut. close(); 
} 


这 段 代码 实现 了 Lempel-Ziv-Welch 算法 的 展开 。 展 开 比 压缩 更 加 复杂 ， 因 为 需要 从 下 一 个 编码 中 获 
取 前 瞻 字 符 ， 并 且 存在 前 颇 字 符 可 能 不 可 用 的 复杂 情况 (请 见 正文 ) 。 


% java LZW - < abraLZW.txt | java LZ + 
ABRACADABRABRABRA 


% more ababLZW. txt 
ABABABA 


% java LZW - < ababLZW.txt | java LZW + 
ABABABA 





和 以 前 一 样 , 请 花 一 点 时 间 仔细 研究 程序 和 图 5.5.21 给 出 的 OV 十 几 年 以 来 ， 
它 已 经 被 证 明 为 是 一 个 多 用 途 高 效率 的 压缩 算法 。 


5.5 数据 压缩 十 555 


病毒 (50 000 位 ) 
% java Genome - < genomeVirus.txt | java PictureDump 512 25 








12 536 位 


% java LZW - < genomeViru 





t | java PictureDump 512 36 












18 232 位 ~ 一 效果 不 如 双 位 编码 ， 因 为 重复 数据 很 少 


位 图 (6144 位 ) s 
% java RunLength - < q64x96.bin | java BinaryDump 0 
2296 位 


% java LZW - < q64x96.bin | java BinaryDump 0 
2824 位 一 一 效果 不 如 游程 编码 ， 因 为 文件 太 小 


《 双 城 计 》 全 文 (5 812 552 位 ) 


% java BinaryDump 0 < tale.txt 
5 812 552 位 


% java Huffman - < tale.txt | java BinaryDump 0 
3 043 928 位 


% java LZW - < tale.txt | java BinaryDump 0 
2 667 952 位 ”~ 一 压缩 率 2667952/$812552 = 46% (已 知 最 好 成 绩 ) 


图 5.5.21 采用 12 位 编码 的 LZW 算法 对 各 种 文件 的 压缩 和 展开 


为 什么 需要 BinaryStdIn 和 BinaryStdOut ? 
这 是 在 便利 性 和 效率 之 间作 出 的 一 个 平衡 。StdIn 每 次 能 够 处 理 8 位 数据 ， 而 BinaryStdIn 必须 处 
理 每 一 位 数据 。 大 多 数 应 用 程序 处 理 的 都 是 字 节 流 ， 但 数据 压缩 是 个 例外 。 

为 什么 需要 close() 方法 ? 

有 这 个 要 求 的 是 因为 标准 输出 流 是 一 个 字 节 流 ， 因 此 BinaryStdOut 需要 知道 何 时 将 最 后 一 个 字 节 
对 齐 并 输出 。 

能 够 将 StdIn 和 BinaryStdIn 混用 吗 ? 


最 好 不 要 这 样 。 因 为 它们 都 和 系统 以 及 具体 的 实现 有 关 ，- 谁 也 不 知道 会 出 现 什么 情况 。 我 们 的 实现 会 地 


出 一 个 异常 。 但 从 另 一 方面 来 说 , 混用 :Stdout 和 BinaryStdout 没有 问题 (我 们 的 代码 就 这 么 使 用 的 ) 。 
为 什么 在 Huffman 类 中 Node 类 是 静态 的 ? 

我 们 将 所 有 数据 压缩 算法 都 组 织 成 了 静态 方法 的 集合 ， 而 没有 实现 任何 数据 结构 。 

我 能 保证 数据 压缩 算法 至 少 不 会 将 比特 流 还 长 吗 ? 

你 可 以 直接 把 输入 复制 到 输出 ， 但 仍然 需要 某 种 标记 来 说 明 不 需要 使 用 任何 标准 的 数据 压缩 方法 就 
可 以 夸 用 官 。 某 些 商业 数据 压缩 程序 有 时 会 作出 这 种 保证 ， 但 实际 上 这 种 保证 很 脆弱 并 且 远 远 不 具 
备 通用 性 : 事实 上 ， 大 多 数 数据 压缩 算法 甚至 都 做 不 到 我 们 对 命题 的 第 一 种 证 明 方 法 的 第 二 步 : 
极 少 有 算法 能 够 进一步 压缩 其 自身 产生 的 比特 字符 串 。 
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国 终 习 


5.5.1 请 看 下 表 所 示 的 4 种 变 长 编码 。 哪 些 编码 是 无 前 级 的 ? 哪些 编码 的 解码 方式 是 唯一 的 ? 对 于 解码 


方式 唯一 的 编码 ， 请 给 出 1000000000000 的 编码 结果 。 





符号 编码 1 编码 2 编码 3 编码 4 
A 0 0 1 1 
B 100 1 ol 01 
C 10 00 001 001 
D 1 1 0001 000 


5.5.2 给 出 一 个 非 前 缀 码 但 解码 方式 又 是 唯一 的 编码 。 
答 : 任意 无 后 级 的 编码 都 是 解码 方式 唯一 的 编码 。 
5.5.3 ”给 出 一 个 即 非 前 级 码 又 非 后 级 码 且 解码 方式 唯一 的 编码 。 


答 : {0011, 011, 11, 1110} 或 {01, 10, 011, 110} 
5.5.4 {01, 1001, 1011, 111, 1110} 和 {01, 1001, 1011, 111, 1110} 的 解码 方式 是 唯一 的 吗 ? 如 果 不 是 ， 找 出 
一 条 可 以 用 两 种 方式 解码 的 字符 串 。 


5.5.5 使 用 RunLength 处 理 本 书 网 站 上 的 文件 q128x192.bin。 被 压缩 后 的 文件 含有 多 少 比特 ? 
5.5.6 将 N 个 符号 a 编码 需要 多 少 比特 ( 作为 X 的 函数 ) ? N 个 序列 abc 呢 ? 


5.5.7 ”给 出 用 游程 编码 、 震 夫 曼 编码 、LZW 编码 压缩 字符 串 a,aa,aaa,aaaa, ... (含有 NN 个 a 的 字符 串 ) 


的 结果 ， 以 X 的 函数 表示 压缩 比 。 
5.5.8 ”给 出 用 游程 编码 、 霍 夫 曼 编码 、LZW 编码 压缩 字符 申 ab,abab,ababab,abababab， 
重复 入 次 得 到 的 字符 串 ) 的 结果 ， 以 N 的 函数 表示 压缩 比 。 


5.5.9 估计 游程 编码 、 埠 夫 曼 编码 和 LZW 编码 处 理 长 度 为 N 的 随机 ASCII 字符 串 ( 任意 位 置 都 有 独立 


均等 的 几率 出 现任 意 字符 ) 的 压缩 比 。 


5.5.10 ”按照 正文 中 的 示意 图 的 样式 显示 使 用 Huffiman 处 理 字符 串 it was the age of foolishness 


[BE 时 霍 夫 曼 编码 树 的 构造 过 程 。 压 缩 后 的 比特 流 需要 多 少 比特 ? 





5.5.11 ”如 果 所 有 字符 均 来 自 一 个 只 有 两 个 字符 的 字母 表 ， 该 字符 串 的 埠 夫 曼 编码 将 会 是 什么 ? 给 出 这 样 


的 一 个 长 度 为 N 的 字符 串 ， 使 得 替 夫 曼 编 码 得 到 的 结果 最 长 。 
5.5.12 ”假设 所 有 符号 出 现 的 概率 均 为 2 的 负 若 干 次 方 ， 描 述 相应 的 霍 夫 曼 编码 。 
5.5.13 ”假设 所 有 符号 出 现 的 概率 均 相等 ， 描 述 相应 的 替 夫 曼 编 码 。 
5.5.14 ”假设 需要 编码 的 所 有 字符 的 出 现 频率 均 不 相同 。 此 时 的 霍 夫 曼 编码 树 是 唯一 的 吗 ? 


5.5.15 ”只 需 扩展 霍 夫 曼 算法 即 可 有 效 地 将 双 位 字符 编码 ( 使 用 四 向 树 ”) 。 这 么 做 的 主要 优点 和 缺点 是 


什么 ? 

5.5.16 ”以 下 输入 经 过 LZW 编码 后 的 结果 是 什么 ? 
aTOBEORNOTTOBE 
b.YABBADABBADABBADOO 
CAAAAAAAAAAAAAAAAAAAAA 


四 每 个 结 点 都 含有 4 条 链接 。 一 一 译 者 注 


… (将 ab 


5.5.17 


5.5.18 


5.5.19 
5.5.20 


5.5.21 
5.5.22 


5.5.23 


5.5.24 


5.5 数据 压缩 二 557 


总 结 LZW 编码 中 需要 特别 注意 的 情况 。 

解答 : 每 当 遇 到 形 如 cScSc 的 字符 串 时 都 会 出 现 这 种 情况 , 其 中 c 是 一 个 符号 而 S 是 一 个 字符 串 ， 
字典 中 已 经 含有 cS 但 没有 cSc。 

设 所 是 第 k 个 右 波 那 奥 数 。 假 设 有 一 个 符号 序列 ， 其 中 第 上 个 符号 的 频率 为 及 。 注 意 ， 
+Fyt…tFy=Fws-1。 给 出 相应 的 者 夫 曼 编码 。 提 示 : 最 长 编码 的 长 度 为 N-1。 

证 明 ， 对 于 给 定 的 入 个 符号 的 集合 ， 至 少 存在 2” 种 不 同 的 堆 夫 曼 编码 。 

给 出 一 种 霍 夫 曼 编码 ， 使 得 输出 中 的 0 的 出 现 频率 比 1 要 高 得 多 。 

答 : 如 果 字符 A 出 现 了 100 万 次 而 B 只 出 现 了 一 次 ,那么 将 A 的 编码 设 为 0，B 的 编码 设 为 1 即 可 。 
请 证 明 在 任意 堆 夫 曼 编码 中 ， 最 长 的 两 个 编码 的 长 度 必然 是 相等 的 。 

请 证 明 震 夫 曼 编码 的 以 下 性 质 : 如 果 符号 i 的 出 现 频率 大 于 符号 j， 那 么 符号 i 的 编码 长 度 将 会 
小 于 等 于 符号 j 的 编码 长 度 。 

如 果 将 用 替 夫 曼 编码 得 到 的 字符 串 看 作 由 5 位 字符 组 成 的 字符 流 并 继续 用 替 夫 曼 编码 处 理 它 
结果 将 会 是 什么 ? 

按照 正文 中 示意 图 的 样式 显示 使 用 LZW 编码 处 理 以 下 字符 串 时 所 构造 的 编码 树 以 及 整个 压缩 和 
展开 的 过 程 。 

it was the best of times it was the worst of times 





5.5.25 定 长 定 宽 的 编码 。 实 现 一 个 使 用 定 长 编码 的 RLE 类 来 压缩 不 同 字符 较 少 的 ASCII 字 节 流 ， 将 编 


5.5.26 


5.5.27 


码 输出 为 比特 流 的 一 部 分 。 在 compress () 方法 用 一 个 alpha 字符 串 保存 输入 中 所 有 不 同 的 字母 ， 
用 它 得 到 一 个 Alphabet 对 象 以 供 compress () 方法 使 用 。 将 alpha 字符 串 (8 位 编码 再 加 上 它 
的 长 度 ) 添加 到 压缩 后 的 比特 流 的 开头 。 修 改 expand() 方法 ， 在 展开 之 前 先 读 取 它 的 字母 表 。 
重建 LZW 字典 。 修 改 LZW 算法 ， 当 字典 饱和 时 将 其 清空 。 这 种 方式 适合 某 些 应 用 程序 ， 因 为 
它 能 更 好 地 适应 输入 中 的 字符 变化 。 

较 长 的 重复 。 估 计 游 程 编码 、 震 夫 曼 编码 和 LZW 编码 处 理 长 度 为 2N 的 一 条 字符 串 的 压缩 率 ， 
该 字符 串 由 长 度 为 N 的 一 条 随机 ASCII 字符 串 (请 见 练习 5.5.9 ) 重复 而 成 。 
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在 现代 社会 中 , 计算 机 设备 无 处 不 在 。 在 过 去 的 几 十 年 中 ,我 们 世界 中 的 电子 设备 还 是 一 片 空白 ， 
但 现在 它们 已 经 成 为 数 十 亿 人 日 常 必 备 的 工具 。 今 天 的 手机 甚至 都 比 30 年 前 只 有 少数 人 才 有 权 使 
用 的 超级 计算 机 强大 若干 个 数量 级 。 这 些 设备 高 效 工作 的 背后 都 离 不 开 算法 ， 而 其 中 的 一 些 算法 本 
书 中 也 有 所 讨论 。 这 是 为 什么 呢 ? 因 为 适 者 生存 。 可 扩展 的 (线性 的 和 线性 对 数 级 别 的 ) 算法 是 这 
个 过 程 的 核心 并 证 明了 高 效 算法 的 重要 性 。20 世纪 60 年 代 和 70 年 代 的 一 些 研究 者 用 这 些 算法 为 我 
们 的 今天 打下 了 基础 。 他 们 知道 , 可 扩展 的 算法 是 未 来 的 关键 , 而 过 去 几 十 年 的 发 展 也 证 明了 这 一 点 。 
现在 ， 基 础 设施 已 经 完备 ， 人 们 已 经 开始 利用 它们 达到 各 种 目的 。 正 如 B.Chazelle 所 说 ，20 世纪 是 
方程 的 世纪 ,但 21 世纪 是 算法 的 世纪 。 

本 书 中 讨论 的 基础 算法 只 是 一 个 开始 。 当 算法 能 够 成 为 大 学 中 的 一 门 独立 学 科 时 ， 这 一 天 就 快 
要 到 来 了 (也 许 已 经 来 了 ) 。 在 商业 应 用 、 科 学 计算 、 工 程 、 运 筹 学 和 其 他 无 数 有 待人 们 探索 的 领 
域 中 ， 高 效 的 算法 都 能 使 原来 不 可 能 解决 的 问题 得 到 解决 。 本 书 的 重点 是 学 习 重要 而 实用 的 算法 。 
在 本 章 中 ,我 们 会 沿 着 这 条 路 继续 讨论 几 个 示例 ， 它 们 能 够 说 明 已 经 学 过 的 一 些 算法 在 高 级 实践 情 
景 中 的 作用 。 ( 还 包括 一 些 学 习 算法 的 方法 。 ) 为 了 说 明 算法 的 影响 范围 ， 我 们 首先 列 出 算法 的 几 

851| 个 重要 的 应 用 领域 ， 然 后 详细 讨论 几 个 有 代表 性 的 示例 并 介绍 算法 的 相关 理论 来 说 明 应 用 的 深度 。 
853| 不 过 对 于 这 本 大 厚 书 来 说 ， 在 最 后 涉及 的 这 两 个 主题 都 是 介绍 性 的 ， 并 不 全 面 ， 实 际 生活 中 还 有 许 
多 同样 广泛 的 领域 、 同 样 重要 的 应 用 场景 、 同 样 有 影响 力 的 具体 问题 。 
商业 应 用 

互联 网 的 出 现 加 强 了 算法 在 商业 应 用 软件 中 的 核心 地 位 。 人 们 经 常 使 用 的 所 有 应 用 都 得 益 于 我 
们 已 经 学 过 的 许多 经 典 算法 : 

口 基础 设施 ( 操作 系统 、 数 据 库 、 通 信 ) ; 

口 应 用 程序 ( 电子 邮件 、 文 档 处 理 、 数 码 照 片 ); 

口 出 版 ( 书籍、 杂志 、 网 络 内 容 ) ; 

口 网 络 (无 线 网 络 、 社 交 网 络 、 互 联网 ) ; 

口交 易 处 理 ( 金融、 零售 、 网 络 搜索 ) 。 

本 章 中 将 会 讨论 一 个 有 代表 性 的 示例 ， 即 B- 树 。 它 是 为 20 世纪 60 年 代 的 大 型 机 发 明 的 一 种 
复杂 的 数据 结构 ， 但 今天 它 仍然 是 现代 数据 库 系 统 的 基础 结构 。 此 外 ， 还 将 讨论 用 于 文本 索引 的 后 
组 数组 。 
科学 计算 

自从 汉 * 诺 依 曼 在 1950 年 发 明了 归并 排序 之 后 , 算法 在 科学 计算 领域 逐渐 起 到 了 重要 的 作用 。 
今天 的 科学 家 需要 处 理 大 量 的 实验 数据 。 他 们 在 同时 使 用 数学 模型 和 计算 模型 来 理解 自然 世界 ， 
包括 : 
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口 数学 计算 ( 多 项 式 、 和 矩阵 、 微 分 方程 ) ; 

口 数据 处 理 (实验 结果 和 观测 资料 ， 特 别 是 基因 组 学 ) ; 

口 计算 模型 和 模拟 。 

这 些 任务 都 可 能 需要 大 量 复杂 的 海量 数据 计算 。 在 科学 计算 领域 ， 本 章 中 会 详细 讨论 的 一 个 
经 典 示 例 就 是 事件 驱动 模拟 问题 。 它 的 思想 是 维护 一 个 复杂 的 真实 世界 的 模型 并 根据 时 间 控制 模 
型 中 发 生 的 变化 。 这 种 基础 方法 有 着 非常 多 的 应 用 。 此 外 还 将 讨论 一 个 基因 计算 领域 的 基础 数据 
处 理 问题 。 
工程 学 

现代 工程 学 的 基础 是 技术 ， 而 现代 技术 的 基础 是 计算 机 。 因 此 ， 算 法 能 够 发 挥 重 要 作用 的 方面 
包括 : 

口 数学 计算 和 数据 处 理 ; 

口 计算 机 辅助 设计 和 生产 ; 

口 基于 算法 的 工程 设计 ( 网 络 、 控 制 系统 ) ; 

口 图 像 和 其 他 医学 系统 。 

工程 师 和 科学 家 使 用 的 许多 工具 和 方法 都 是 相同 的 。 例 如 ， 科 学 家 用 计算 模型 和 模拟 来 理解 自 
然 世 界 ; 而 工程 师 用 计算 模型 和 模拟 来 设计 、 建 造 并 控制 他 们 所 制造 的 各 种 产品 。 
运筹 学 

运筹 学 领域 的 研究 者 和 实践 者 开发 了 各 种 数学 模型 并 用 它们 解决 了 许多 问题 ， 包 括 : 

口 任务 调度 ; 

口 决策; 

口 资源 分 配 。 

44 节 中 的 最 短路 径 问题 就 是 一 个 经 典 的 运筹 学 问题 。 本 章 会 再 次 讨论 它 并 介绍 最 大 流量 问题 。 
我 们 会 展示 规约 的 重要 性 并 讨论 它 对 于 问题 解决 ( problem-solving ) 的 通用 模型 的 影响 ， 特 别 是 对 
运筹 学 中 核心 的 线性 规划 模型 的 影响 。 

算法 在 计算 机 科学 的 各 个 子 领域 中 都 有 着 重要 的 地 位 ， 它 的 应 用 领域 包括 ， 但 绝对 不 局 限于 : 

口 计算 几何 ; 

口 密码 学 ; 

口 数据 库 ; 

口 编程 语言 与 系统 

口 人 工 智 能 。 

在 所 有 领域 中 ， 说 明 问题 并 找到 有 效 算法 和 数据 结构 来 解决 问题 都 是 非常 重要 的 。 我 们 已 经 学 
过 的 部 分 算法 是 可 以 直接 使 用 的 。 更 重要 的 是 ， 本 书 的 核心 内 容 ， 也 就 是 设计 、 实 现 和 分 析 算 法 的 
一 般 方法 在 所 有 这 些 领 域 中 都 已 经 被 成 功 地 验证 过 。 这 种 效应 已 经 从 计算 机 科学 扩散 到 了 许多 其 他 
领域 ,包括 体育 、 音 乐 、 语 言 学 、 金 融 、 神 经 科学 ， 等 等 。 

我 们 现在 已 经 学 习 了 许多 重要 且 实 用 的 算法 ， 那 么 理解 它们 之 间 的 相互 美 系 就 变 得 很 必要 了 。 
在 本 章 的 ( 也 是 本 书 的! ) 结尾 我 们 会 简要 介绍 计算 理论 ， 重 点 是 不 可 解 性 (intractability ) 和 
P=NP? 这 个 问题 。 它 们 仍然 是 理解 实践 中 遇 到 的 各 种 问题 的 关键 。 


6.0.1 事件 驱动 模拟 
我 们 的 第 一 个 示例 是 一 个 基础 的 科学 应 用 : 按照 弹性 碰撞 的 原理 模拟 粒子 系统 的 运动 。 科 学 家 
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“以 及 和 墙 的 距离 都 很 远 ， 那 么 计算 就 很 简单 了 : 因为 粒子 的 轨 


通过 这 个 系统 可 以 理解 和 预测 物理 系统 的 性 质 。 这 个 模型 可 以 模拟 气体 中 分 子 的 运动 、 化 学 反应 的 
动态 过 程 、 原 子 扩散 、 最 密 堆 积 问题 ( sphere packing ) 、 行 星 的 环 的 稳定 性 、 某 些 元 素 的 相 变 、 一 
维 自 引力 体系 前 向 阵 面 传播 技术 等 许多 问题 。 它 可 应 用 的 范围 从 分 子 运动 中 的 微小 亚 原子 粒子 到 天 
体 物理 学 中 巨大 的 星体 对 象 。 : 

讨论 这 个 问题 需要 一 些 高 中 物理 知识 、 一 些 软件 工程 的 知识 和 一 些 算法 知识 。 我 们 把 大 部 分 和 
物理 有 关 的 内 容 久 作 练习 ;而 主要 关注 使 用 基础 的 算法 工具 (基于 堆 的 优先 队列 ) ， 以 处 理 它 的 一 
个 实际 应 用 ， 将 不 可 能 的 计算 变 为 可 能 。 
6.0.1.1 刚性 球体 模型 

首先 介绍 一 个 理想 模型 ， 它 描述 的 是 原子 和 分 子 在 含有 以 下 性 质 的 容器 中 的 运动 : 

口 运动 的 粒子 与 墙 以 及 互相 之 间 的 碰撞 是 弹性 的 ; 

口 每 个 粒子 邦 是 一 个 已 知 位 置 、 速 度 、 质 量 和 直径 的 球体 

口 不 存在 其 他 外 力 。 

这 个 简单 的 模型 在 统计 力学 这 个 既 与 宏观 现象 《例如 温度 和 压力 ) 有 关 又 与 微观 现象 (例如 间 
个 原子 和 分 子 的 运动 ) 有 关 的 学 科 中 十 分 重要 。 麦 克 斯 维尔 和 玻 尔 效 曼 使 用 这 个 模型 得 到 了 由 温度 
的 函数 表示 的 相互 碰 挤 的 分 子 的 速度 分 布 , 爱 因 斯 坦 用 这 个 模型 解释 了 花粉 颗粒 在 水 中 的 布朗 运动 。 
不 存在 其 他 外 力 的 假设 意味 着 粒子 在 碰撞 之 前 是 在 做 匀速 直线 运动 。 我 们 也 可 以 通过 添加 其 他 作用 
力 来 扩展 这 个 模型 。 例 如 ， 如 果 加 上 摩擦 力 和 自 旋 ， 那 就 可 以 更 加 准确 地 描述 一 些 熟悉 的 物理 运动 ， 
例如 台球 桌 上 的 台球 。 
6.0.1.2 ”时 间 驱 动 模拟 
”我 们 的 主要 目标 是 维持 这 个 模型 ， 即 希望 能 够 记录 所 有 粒 
子 在 任意 时 间 内 的 位 置 和 速度 。 为 此 ， 需 要 计算 ; 在 给 定 了 时 @、 
刻 1 时 的 所 有 粒子 的 位 置 和 速度 后 ， 再 给 出 dr 时 间 之 后 ， 即 未 
来 的 时 间 点 t+di 时 它们 的 位 置 和 速度 。 如 果 所 有 粒子 互相 之 间 


迹 是 -一 条 直线 , 所 以 只 需要 用 粒子 的 速度 就 可 以 更 新 它 的 位 置 。 ae 
这 个 问题 的 挑战 在 于 要 考虑 碰撞 情况 。 一 种 解决 方法 叫做 时 间 

驱动 模拟 ( 请 见 图 6.0.1) ， 它 基于 使 用 固定 长 度 的 dt。 在 每 时 刻 t+2dt 

次 更 新 时 ， 我 们 都 需要 检查 所 有 粒子 对 ， 判 定 它们 是 否 可 能 相 

遇 ， 然 后 还 原 它们 的 第 一 次 碰撞 。 此 时 ， 我 们 将 会 更 新 两 个 粒 “ 地 B 
子 的 速度 以 反映 出 碰 擅 的 结果 ( 计算 方法 会 稍 后 讨论 ) 。 在 粒 


时 刻 


- 子 数 量 很 多 时 , 这 种 方式 的 计算 量 非常 大 : 如 果 尼 是 以 秒 计 (一 将 时 刻 合 回 碰 擅 发 生 的 时 候 


般 为 一 秒 的 若干 分 之 一 ) ， 它 模拟 N 个 粒子 的 系统 一 秒 钟 的 运 
动 所 需 的 时 间 与 Ni/dt 成 正比 。 这 种 成 本 太 昂 贵 了 ( 比 平方 级 © 
别 的 算法 更 高 ) 一 一 在 一 般 的 应 用 中 ，N 都 会 非常 大 而 qr 会 非 
常 小 。di 的 问题 在 于 如 果 它 太 小 ， 计 算 量 就 太 高 ， 但 如 果 它 太 
大 ， 那 就 可 能 错过 许多 次 碰撞 ， 请 见 图 6:0.2。 图 6.0.1 以 时 间作 为 驱动 的 模拟 
6.0.1.3 事件 驱动 模拟 & 

另 一 种 方法 是 仅 关注 碰撞 发 生 的 时 间 点 ， 重 点 关注 下 一 次 碰撞 ( 因为 在 此 之 前 由 速度 计算 得 到 
的 所 有 粒子 的 位 置 都 是 有 效 的 ) 。 因 此 ， 我 们 可 以 使 用 一 个 优先 队列 来 记录 所 有 事件 。 事 件 是 未 来 
的 某 个 时 间 的 一 次 潜在 的 碰撞 ， 可 能 发 生 在 两 个 粒子 之 间 ， 也 可 能 发 生 在 粒子 和 墙 之 间 。 和 每 个 事 
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件 相关 联 的 优先 级 就 是 它 发 生 的 时 间 ， 因 此 当 从 优先 队列 中 。 。 太 小 : 计算 量 太 大 
出去 优先 级 最 低 的 元 素 时 ， 就 会 得 到 下 一 次 潜在 的 碰撞 。 、 


6.0.1.4 ”碰撞 预测 
我 们 如 何 才能 识别 潜在 的 碰撞 呢 ? 粒子 的 速度 正好 提供 SS 

了 这 个 必要 的 信息 。 例 如 ， 假 设 在 单位 空间 中 ， 在 时 刻 :有 一 

个 半径 为 速度 为 (w v,) 的 粒子 位 于 (r,, r,)。 假 设 墙 位 于 x=1 dh 太 大 : 可 能 错过 碰撞 

处 , 高 度 y 在 0 到 1 之 间 。 我 们 感 兴趣 的 是 运动 的 横向 分 量 ， 溢 


因此 注意 力 集中 在 位 置 的 x 分 量 * 和 速度 的 x 分 量 上 上 。 如 ~ 语 
果 必 是 负数 ， 那 么 粕 子 的 轨迹 不 会 与 堵 体 相交， 但 如 果 ， 是 a 

正 数 ， 那 就 存在 一 个 粕 子 和 雯 的 潜在 磁 挤 。 将 例子 和 雯 的 间 Se 
距 (1-s-r) 除 以 速度 的 分量 (v)， 就 可 以 得 到 粒子 和 增 的 磁 


擅 时 间 为 dk-(1-s-r/ v 个 时 间 单 位 之 后 ， 此 时 粒子 的 位 时 将 为 。 图 602 驰 动 模拟 的 主要 问题 
(1-syytwA)， 除 非 它 在 之 前 又 擅 上 了 其 他 某 个 粒子 或 者 增 ， 请 

见 图 603。 因 此 ， 我 们 就 可 以 向 优先 队列 中 插入 一 个 优先 级 为 #d 的 条 目 ( 以 及 一 些 描述 该 示例 和 
增 的 碰 擅 事件 的 信息 ) 。 墙 体 的 碰撞 预测 计算 都 是 类 似 的 《请 见 练习 6.1) 。 两 个 粒子 之 间 的 碰撞 也 
是 类 似 的 ， 但 更 加 复杂 一 些 。 不 过 你 会 注意 到 这 种 计算 得 到 的 预测 结果 通常 是 不 会 碰撞 ( 比如 粒子 正 
在 向 墙 体 的 反方 向 移动 ， 或 者 两 个 粒子 的 运动 方向 相反 ) 一 这 种 情况 下 就 不 需要 向 优先 队列 中 插入 
任何 东西 。 为 了 处 理 另 一 种 典型 情况 ， 也 就 是 预测 到 的 碰 擅 距 现在 的 时 间 太 远 时 ， 就 需要 一 个 Timit 
参数 来 指定 有 效 的 时 间 段 ， 这 样 就 可 以 忽略 时 间 晚 于 1imit 发 生 的 所 有 事件 了 。 
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图 6.0.3 “预测 并 解决 粒子 和 墙 体 的 一 次 碰撞 


6.0.1.5 ”碰撞 计算 
当 发 生 碰撞 时 ， 我 们 需要 使 用 物理 公式 来 进行 计算 ， 以 描述 一 个 粒子 在 和 另 一 个 粒子 或 者 墙 体 
发 生 刚 性 碰撞 时 的 行为 。 在 示例 中 ， 墙 体 遇 到 了 一 面 竖 墙 。 如 果 发 生 碰 撞 ， 粒 子 的 速度 将 会 从 (vv, ) 
变 为 (-v,v,) ， 请 见 图 6.0.4。 其 他 墙 体 的 碰撞 和 它 类 似 。 两 个 粒子 的 碰撞 也 是 类 似 的， 在 物理 上 
这 是 不 严密 的 ， 但 要 更 加 复杂 一 些 ( 请 见 练习 6.1 ) 。 
预测 (时 间 /) A 


两 个 粒子 将 会 发 生 碰撞 ， 
除非 某 一 个 提前 通过 了 交汇 点 人 





解 (时 间 t+dr) 
碰撞 之 后 两 个 粒子 
的 速度 都 会 发 生 改 变 


图 6.0.4 ”预测 并 计算 粒子 和 墙 体 的 一 次 碰撞 
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6.0.1.6 ”排除 无 效 事件 。 

预测 的 许多 碰撞 实际 上 都 不 会 发 生 , 因为 它们 被 其 他 的 碰撞 打 断 了 ， 粒子 向 一 而 
请 见 图 6.0.5。 为 了 处 理 这 种 情况 ， 我 们 为 每 个 粒子 维护 一 个 实例 变量 ~、 和 从 生动 
来 记录 和 它 有 关 的 碰撞 数量 。 当 从 优先 队列 中 取出 一 个 事件 来 处 理 时 ， 

我 们 会 检查 该 事件 所 涉及 粒子 的 碰撞 计数 器 在 事件 被 创建 后 是 否 已 经 更 AS 

新 。 这 是 排除 无 效 碰撞 的 延 时 方法 : 当 某 个 粒子 参与 了 一 次 碰撞 时 ， 我 \ 两 颗 即 将 

们 不 会 删除 优先 队列 中 和 该 粒子 有 关 的 其 他 碰撞 ( 尽管 这 些 碰撞 事件 现 碰撞 的 粒子 

在 都 已 经 无 效 了 ) ， 而 是 会 在 之 后 遇 到 它们 时 直接 将 其 忽略 请 见 图 6.0.6。 。 图 6 0.5 可 预测 的 事件 
另 一 种 即时 的 方式 是 立刻 从 优先 队列 中 删除 所 有 与 参与 当前 事件 的 粒子 

相关 的 其 他 事件 ， 然 后 再 计算 这 些 粒子 的 新 潜在 碰撞 事件 。 这 种 方式 需要 的 优先 队列 更 加 复杂 ( 需 
要 实现 删除 操作 ， 请 见 图 6.0.7 ) 。 

以 上 讨论 了 一 些 预备 知识 这些 都 是 对 按照 物理 定律 进行 弹性 碰撞 的 运动 粒子 执行 事件 驱动 
模拟 所 必 备 的 。 相 应 的 软件 架构 会 将 实现 封装 在 3 个 类 中 : 一 个 Particle 数据 类 型 ， 封 装 了 所 
有 和 粒子 有 关 的 计算 ; 一 个 Event 数据 类 型 来 预测 事件 ; 一 个 它们 的 用 例 Co11isionSystem 类 
用 来 完成 模拟 。 模 拟 的 核心 是 一 个 含有 所 有 事件 的 MinPQ 优先 队列 ， 按 照 时 间 排序 。 下 面 看 一 下 
Particle、Event 和 Co11isionSystem 的 实现 。 


粒子 彰 向 一 
共 ”。 而 由 作 运动 





\ - 
两 颗 运 行 在 碰撞 轨道 上 的 粒子 
~ 
一 
粒子 相互 离开 Js 
ee 人 
-个 竹子 先 子 另 一 第 三 颗粒 子 干扰 :碰撞 不 会 发 生 
个 粒子 到 达 碰 接点 
i © 
碰撞 发 生 的 
时 间 过 于 台 远 
859 图 6.0.6 ”可 预测 的 不 可 能 发 生 的 事件 图 6.0.7 一 次 失效 的 事件 











6.0.1.7 粒子 
练习 6.1 基于 牛顿 的 运动 学 定律 给 出 了 粒子 数据 类 型 的 实现 要 点 。 模 拟 用 例 应 该 能 够 移动 粒子 、 
画 出 粒子 并 进行 若干 和 碰撞 相关 的 计算 ， 如 表 6.0.1 中 的 API 所 示 。 
表 6.0.1 运动 的 粒子 对 象 的 API 
public class Particle 
Particle() 在 单位 空间 中 创造 一 个 新 的 随机 粒子 
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( 续 ) 





public class Particle 





Particle( 
double rx, double ry, 
double vx, double vy, 
double s, 


用 给 定 的 位 置 、 速 度 、 半 径 和 质量 创建 一 个 粒子 


double mass) 

void drawO) 画 出 粒子 

void move(double dt) 根据 时 间 的 流逝 dt 改变 粒子 的 位 置 

int countO 该 粒子 所 参与 的 碰撞 总 数 
double timeToHit(Particle b) 距离 该 粒子 和 粒子 b 碰撞 所 需 的 时 间 
double timeToHitHorizontalwal10) 距离 该 粒子 和 水 平 的 墙 体 碰撞 所 需 的 时 间 
double timeToHityerticalwa110) 距离 该 粒子 和 垂直 的 墙 体 碰撞 所 需 的 时 间 
double bounceOff(Particle b) 碰撞 后 该 粒子 的 速度 
double bounceOffHorizontalwal10) 碰撞 水 平 墙 体 后 该 粒子 的 速度 
double bounce0ffverticalwal110) 碰 挤 垂直 墙 体 后 该 粒子 的 速度 


当 粒 子 不 在 碰撞 轨道 上 时 ( 这 是 很 常见 的 ) ，3 个 timeToHit*() 的 方法 都 会 返回 Double. 
POSITIVE_INFINITY。 这 些 方法 可 以 帮助 预测 给 定 粒子 在 未 来 的 所 有 碰撞 ， 将 在 1imit 时 间 内 发 


生 的 碰撞 事件 插入 优先 队 
列 。 在 处 理 两 颗粒 子 相 擅 的 
事件 时 ， 使 用 bounceOffO 
方法 计算 两 颗粒 子 在 碰撞 之 
后 的 速度 。bounceOff*() 
方法 用 于 处 理 粒 子 和 墙 体 之 
间 的 碰撞 事件 。 
6.0.1.8 事件 

我 们 将 应 该 放 入 优先 
队列 中 的 所 有 对 象 信息 封装 
在 一 个 私有 类 之 中 ( 各 种 事 
件 ) 。 实 例 变量 time 记录 
的 是 事件 的 预计 发 生 时 间 ， 
实例 变量 a 和 b 保存 的 是 和 
该 事件 相关 的 粒子 。 这 里 有 
3 种 不 同类 型 的 事件 : 粒子 
和 垂直 墙 体 碰撞 、 粒 子 和 水 
平 墙 体 碰撞 、 粒 子 和 粒子 碰 
撞 。 为 了 平滑 动态 地 显示 运 
动 中 的 粒子 ， 我 们 添加 了 第 
4 种 类 型 的 事件 ， 即 重 绘 事 


private class Event implements Comparable<Event> 
区 

private final double time; 

private final Particle a, b; 

private final int countA, countB; 


public Event(double t, Particle a, Particle b) 
人 // 创造 一 个 发 生 在 时 间 t 且 与 a 和 b 相 关 的 新 事件 
this.time = t; 
this.a =a; 
this.b = bi 
if (a != nu11) countA = a.count(); else countA = -1; 
if (b != nyll) countB = b.count(); else countB = -1; 
} 


public int compareTo(Event that) 
{ 


证 (this.time < that.time) return -1; 
else if (this.time > that.time) return +1; 
else return 0; 

} 


public boolean isValid() 
{ 


if (a != nul1 && a.count() != countA) return false; 
if (b != nul1 && b.count() != countB) return false; 
return true; 

于 


粒子 模拟 的 事件 类 


564 办 第 6 章 背景 二 汪汪 





件 。 窑 的 信用 是 将 所 有 粒子 在 它们 的 当前 时 机 5 为 了 使 Event rc 的 实现 人 名 表示 这 4 种 类 型 的 事 
“ 件 ， 人 允许 粒子 的 值 为 空 Cnu11 ) ; 
口 a 和 bb 均 不 为 空 : 粒子 与 粒子 碰撞 ; 
口 a 非 空 而 b 为 空 : 粒子 a 和 垂直 墙 体 的 碰撞 ; 
口 a 为 空 而 b 非 空 : 粒子 bp 和 水 平 墙 体 的 碰撞 ; 
口 a 和 bb 均 为 空 : 重 绘 事件 ( 画 出 所 有 粒子 ) 。 
860 尽管 没有 完全 遵循 面向 对 象 编程 的 原则 ， 但 这 些 约定 能 够 得 到 简洁 的 用 例 代码 。 它 的 实现 如 后 
861| 面 框 注 所 示 。 
Event 类 型 实现 中 的 第 二 个 技巧 是 ， 它 维护 了 两 个 实例 变量 countA 和 countB， 以 记录 事件 创建 
时 每 个 粒子 所 参与 的 碰撞 事件 数量 。 如 果 在 将 事件 从 优先 队列 中 取出 时 该 值 没有 发 生变 化 ， 那 么 就 可 
以 继续 模拟 这 个 事件 的 发 生 。 但 如 果 在 这 个 事件 进入 优先 队列 和 离开 优先 队列 的 这 段 时间 内 任何 计数 
器 发 生 了 变化 ， 这 个 事件 就 失效 了 ， 那 就 可 以 忽略 它 。 方 法 isValidO 支持 用 例 代码 检查 这 种 情况 。 














6.0.1.9 ”模拟 器 代码 
有 了 封装 在 Particle 类 privare void predictCol1isions(Particle a, double 1imit) 
和 Event 类 中 的 运算 ,实际 jf G8 -- nu11) return; 
模拟 所 需 的 代码 非常 少 ， 如 for (int i = 0; 1 < particles.length; 1++) 
{ // 将 与 particles[ 让 发 生 碰撞 的 事件 插入 pq 中 
CollisionSystem 的 实现 所 be de ilo SCO EY 
示 (请 见 框 注 “ 基 于 事件 模拟 ee 
E pq.insertCnew EventCt + dt, a, particles[1])); 
互相 碰撞 的 粒子 (框架) ”和 天 
框 注 “ 基 于 事件 模拟 互相 碰撞 double dtX = atimeToHitVerticatwal10); 
if Ct + dtx < Timit) 
的 粒子 ( 主 循环 ) ”) 。 大 多 Br nh rn ld 
数 运算 都 封装 在 右 侧 框 注 所 示 double dtY ~ atimeToHitHorizontalWal10); 
: | EE 1 
的 predictCol1ision 方法 i 
中 。 这 个 方法 会 计算 与 粒子 a F 
有 关 的 所 有 潜在 碰撞 ( 可 能 是 


和 另 一 个 粒子 ， 也 可 能 是 和 一 DR 


面 墙 ) 并 将 相应 的 事件 加 入 优先 队列 中 。 

模拟 的 核心 是 框 注 “ 基 于 事件 模拟 互相 碰撞 的 粒子 ( 主 循环 ) ”中 的 simulate() 方法 。 我 们 
会 调用 predictCo11ision0 方法 来 初始 化 每 个 粒子 ,将 所 有 粒子 和 墙 体 以 及 粒子 和 粒子 之 间 的 潜 

“在 碰撞 加 入 优先 队列 中 ， 然 后 进入 事件 驱动 模拟 的 主 循环 ， 它 的 任务 包括 : 

口 取出 即将 发 生 的 事件 (时间 为 t+ 的 优先 级 最 小 的 事件 ) ; 

口 如 果 事件 无 效 ， 将 它 忽略 ; 

口 按照 直线 运动 轨迹 使 所 有 粒子 运动 到 时 间 t; 

口 更 新 所 有 参与 碰撞 的 粒子 速度 ; 

口 使 用 predictCo11ision() 方法 来 预测 参与 碰撞 的 粒子 在 未 来 可 能 发 生 的 碰撞 ， 并 向 优先 

队列 中 插入 相应 的 事件 。 

这 个 模拟 过 程 可 以 作为 计算 系统 中 的 各 种 有 趣 性 质 的 基础 ， 如 练习 所 示 。 例 如 ， 我 们 所 感 兴趣 
的 一 种 基本 性 质 是 所 有 粒子 向 墙 体 所 施加 的 压力 。 计 算 这 种 压力 的 一 种 方法 是 记录 墙 体 和 粒子 碰撞 
的 次 数 和 动量 ( 根据 粒子 的 质量 和 速度 计算 这 个 值 很 简单 ) ， 这 样 就 很 容易 得 到 它们 的 总 量 。 温 度 

EE62] 性 质 的 计算 也 是 类 似 的 。 se > 





第 6 章 背 景 如 565 


基于 事件 模拟 互相 碰撞 的 粒子 〈 框 架 ) 





public class Co11isionSystem 








private class Event implements Comparable<Event> 
{ /J* 请 见 正文 *//- 了 
private MinpQ<Event> pq; // 优先 区 列 
private double t = 0.0; // -模拟 时 名 
private Particle[] particles;。 // - 疙 于 数组 
public Co11isionsystem(Particle[] particles) 
{ this.particles = particles; } 
private void predictCollisions(Particle a, double. 1imit) 
{ 六 请 见 正文 */ } 
public void redraw(double limit, double Hz) 
世 /1 重 给 事件 : 重新 本 出 所 有 粒子 S 
StdDraw.clearC); 
forCint 1 = 0; 1 < particles.length; i++) particles[i].draw(); 
StdDraw. show(20); : 6 
if Ct < 1imit) 
pq,insertnew Event(t + 1.0 / Hz，nuli，nu11)); 
public void simulateCdouble 1imit, double Hz) 
二。 /w 请 网 后 面 的 主 循环 代码 wX 】” 
‘public static void maini(String[] args) 
了 
StdDraw.show(0); ~ Es 
int N = Integer.parseInt(args[0]); 
Particle[] particles = new Particie[N];. 
for Cint 1 = 0; 1 < N; iD 
particles[i] = new ParticleO; 
CollisionSystem system = new Co11isionsystem(particles); 
System.simulate(10000, 0.5); 
} 
} 


该 类 使 用 了 优先 队列 来 模拟 粒子 系统 随 着 时 间 的 运动 。 测 试用 例 main() 接受 命令 行 参数 N， 创 造 
了 N 个 随机 粒子 并 创建 了 含有 所 有 粒子 的 Co11isionSystem， 然 后 调用 simulateC) 方法 模拟 系统 的 演 
”化 。 其 中 的 实例 变量 分 别 保存 了 模拟 所 需 的 优先 队列 、 当 前 时 间 和 所 有 粒子 。 863 

















基于 事件 模拟 互相 碰撞 的 粒子 〈 主 循环 ) 





public vaid simulate(double limit, double Hz) 

{ 
pq = new MinpQ<Event>0); 
for (int 1 = 0; i < particles. Tength; i++) 

predictCollisions(particles[i], limit); 

pq.insert(new Event(0; .nu11，nu11)); // 添加 重 给 事件 
while. (1pq.isEmptyO) . 
下 .// -处理 一 个 事件 “ 
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Event event = pq.delMinO; 

-if (tevent.isValidO) continue; 
for (int 1 = 0; 1 < particles. length; i++) 

particles[i] -move(event.time - t); // 更 新 村 于 的 位 轩 








“t= event.time; /A 和 时 间 
Particle a = event.a, b = event.b; 
Hf a l= nul] 本 b != nu11) a.bounceOff(b); 


else if (a != null && b 一 nul1) a. bounceOffHorizontaiWal10); 
else if (a -= null && b != nulTD) b.| bounceOffVerticalWallO; 
else if (a == nul1 && b 一 nul1l) redraw(limit, Hz); 
predictCollisions(a, limit); 
predictCollisions(b, Timit); 
Fm : - 
该 方法 是 事件 驱 。 % java CollisonSystem 5 
动 模拟 的 主要 部 分 。 “ 
首先 ， 我 们 用 所 有 粒 
子 预测 的 所 有 未 来 碰 
擅 初 始 化 优先 队列 。 
然后 ， 主 循环 从 队列 
中 取出 一 个 事件 ,更 
新 时 间 和 粒子 的 位 
时 ， 并 在 处 理 碰撞 后 
向 队列 中 加 入 由 此 产 
生 的 所 有 新 的 潜在 
碰撞 。 





6.0.1.10， 性 能 : 
如 本 小 节 的 开头 所 述 ， 我 们 于 于 电动 要 的 主要 二 在 于 划 时 间 驱动 的 内 条 环 所 
须 的 大 量 计算 。 





如 果 使 用 2.4 节 中 优先 队列 的 标准 实现 ， 我 们 能 够 保证 优先 队列 的 每 次 操作 都 是 对 数 级 别 的 
”因此 每 次 碰撞 所 需 的 时 间 是 线性 对 数 级 别 的 。 这 样 ， 才 有 可 能 模拟 大 量 的 粒子 。 
，， 事件 驱动 模拟 已 经 被 应 用 于 无 数 需要 对 运动 中 的 物理 对 象 建 模 的 其 他 领域 ， 例 如 分 子 学 、 天 体 
物理 学 和 机 器 人 技术 。 这 些 应 用 可 能 会 用 其 他 实体 ， 或 是 三 维 空间 ,或 是 其 他 作用 力 等 许多 种 方法 
。 扩展 这 个 模型 。 每 种 扩展 都 会 为 计算 带 来 新 的 挑战 。 这 种 事件 驱动 的 方式 得 到 的 模拟 比 其 他 方法 更 
。 加 健壮 、 准 确 和 高 效 ， 而 基于 堆 的 优先 队列 的 效率 使 不 可 能 完成 的 计算 成 为 了 可 能 。 。 
模拟 在 科学 和 工程 的 各 个 领域 都 是 帮助 研究 者 理解 自然 世界 中 各 种 性 质 的 重要 工具 。 它 的 应 用 








。 从 制造 业 、 生 物 学 、 金 融 领 谨 到 复杂 的 工程 结构 ， 数 不 胜 数 。 对 于 它们 其 中 的 一 大 部 分 应 用 ， 基 于 
堆 的 优先 队列 数据 类 型 或 是 高 效 的 排序 算法 能 够 使 模拟 的 质量 和 范围 大 有 改观 。 


6.0.2 B- 树 

在 第 3 章 中 我 们 已 经 看 到 ， 能 够 快速 访问 大 量 数据 中 的 特定 元 素 的 算法 对 于 实际 应 用 有 着 重要 
意义 。 例 如 在 巨型 数据 集中 ， 查 找 是 一 项 非常 重要 的 操作 ， 该 操作 在 许多 计算 场景 中 会 消耗 掉 大 部 
分 资源 。 随 着 互联 网 的 进步 ， 某 项 任务 访问 到 的 信息 可 能 非常 庞大 一 一 我 们 的 挑战 在 于 在 其 中 进行 
有 效 地 查找 。 在 本 小 节 中 ， 我 们 将 介绍 一 种 3.3 节 的 平衡 树 算法 的 扩展 。 它 支持 对 保存 在 磁盘 或 者 
网 络 上 的 符号 表 进行 外 部 查找 ， 这 些 文件 可 能 比 我 们 以 前 考虑 的 输入 要 大 的 多 ( 以 前 的 输入 能 够 
保存 在 内 存 中 ) 。 现 代 软 件 系统 正在 淡化 本 地 文件 和 网 页 之 间 的 区 别 ， 这 些 内 容 也 可 能 保存 在 一 
台 远程 计算 机 上 ， 因 此 我 们 可 以 找到 的 信息 实际 上 近似 于 无 限 。 令 人 惊讶 的 是 ， 我 们 将 要 学 习 的 
后 
中 进行 查找 和 插入 操作 。 
，6.0.2.1 成 本 模型 
数据 存储 的 机 制 多 种 多 样 且 在 不 断 前 进 ， 因 此 我 们 将 使 用 一 个 能 够 抓 住 本 质 的 简单 模型 。 这 里 
用 页 表示 一 块 连续 的 数据 ， 用 探查 表示 访问 一 个 页 。 假 设 访问 一 页 需要 将 它 的 内 容 读 入 本 地 内 存 ， 
因此 之 后 的 访问 就 可 以 相对 高 效 。 一 个 页 可 能 是 本 地 计算 机 上 的 一 个 文件 ， 也 可 能 是 远程 计算 机 上 
的 一 张 网 页 ， 也 可 能 是 服务 器 上 的 某 个 文件 的 一 部 分 ， 等 等 。 我 们 的 目标 是 实现 能 够 仅 用 极 少 次 数 
` 的 探查 即 可 找到 任意 给 定 键 的 查找 算法 。 我 们 不 想 假 设 页 的 具体 大 小 或 者 一 次 探查 (对 于 远程 设备 
显然 需要 通信 ) 所 需 时 间 与 随后 访问 块 中 内 容 ( 显然 这 发 生 在 本 地 处 理 器 上 ) 所 需 时 间 的 比例 。 在 
-一 般 情 况 下 ， 这 些 值 的 数量 级 可 能 是 100、1000 或 者 10 000。 我 们 不 需要 更 精确 的 值 ， 因 为 在 我 们 
” 感 兴趣 的 范围 内 ， 算 法 对 这 些 值 的 不 同 并 不 非常 敏感 。 


“BB- 树 的 成 本 模型 。 我 们 使 用 页 的 访问 次 娄 (无 论 读 写 ) 作为 外 部 查找 算法 的 成 本 模型 。 


6.0.2.2 B- 树 和 
它 是 对 3.3 节 所 的 .3 拉 数 据 结 $ 构 的 扩展 。 关 键 的 不 同 在 于 : 我 们 不 会 将 数据 保存 在 树 中 ， 

而 是 会 构造 一 棵 由 键 的 副本 组 成 的 树 ， 每 个 副本 都 关联 着 一 条 链接 。 这 种 方式 能 够 更 加 方便 地 将 
索引 和 符号 表 本 身分 开 ， 就 像 一 本 实体 书 中 的 索引 一 样 。 和 2-3 树 一 样 ， 我 们 限制 了 每 个 结 点 中 能 
够 含有 的 “ 键 -链接 ”对 的 上 下 数量 界限 : 选择 一 个 参数 M ( 一 般 都 是 一 个 偶数 ) 并 构造 一 棵 多 向 
树 ， 每 个 结 点 最 多 含有 M-1 对 键 和 链接 (假设 人 足够 小 ， 使 得 每 个 M 向 结 点 都 能 够 存放 在 一 个 页 
中 ) ,最少 含有 MI/2 对 键 和 链接 ( 以 提供 足够 多 的 分 支 来 保证 查找 路 径 较 短 ) 。 根 结 点 是 个 例外 ， 
它 可 以 含有 少 于 M/2 对 键 和 链接 ， 但 也 不 能 少 于 2 对 。 这 种 树 被 Bayer 和 McCreight 在 1970 年 
命名 为 B 树 。 他 们 是 最 早 使 用 多 向 平衡 树 进 行 外 部 查找 的 研究 者 。 有 些 人 也 用 B- 树 这 个 术语 来 描 
述 Bayer 和 McCreight 发 明 的 算法 所 构造 的 数据 结构 。 本 节 用 它 泛 指 所 有 基于 固定 页 大 小 的 多 向 平 
衡 查 找 树 的 数据 结构 。 我 们 用 M 阶 的 B- 树 来 指定 M 的 值 。 在 一 棵 4 阶 B- 树 中 ， 每 个 结 点 都 含有 
至 少 2 对 至 多 3 对 键 一 链接 ;在 一 棵 6 阶 B- 树 中 请 见 图 .6.0.8， 每 个 结 点 都 至 少 含有 3 对 至 多 5 对 
键 一 接 ( 根 结 点 除外 它 可 以 只 含有 2 对 键 与 链接 ) 等 等 。 对 于 较 大 的 M 根 结 点 是 个 例外 的 原因 
在 学 习 构造 算法 的 细节 时 你 就 会 明白 了 。 
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除了 根 结 点 之 外 ， 所 有 结 点 均 为 3- 结 点 、4- 结 点 或 者 5- 结 点 








/ 
符号 表 的 键 (黑色 ) 
保存 在 外 部 结 点 中 


图 6.0.8 详解 用 一 棵 B- 树 表示 的 键 集 (M=6) 


6.0.2.3 约定 

为 了 说 明基 本 的 流程 ， 我 们 先 讨论 (有 序 ) ( 集合 ) SET 的 一 个 实现 ( 只 有 键 没有 值 ) 。 将 它 
扩展 得 到 一 个 能 够 将 键 和 值 相关 联 的 符号 表 实 现 是 一 个 很 好 的 练习 ( 请 见 练习 6.16 ) 。 我 们 的 目标 
是 为 一 个 巨大 的 键 集 实现 add() 和 contains 0 方法 。 使 用 有 序 集 的 原因 是 我 们 希望 将 查找 树 推广 ， 
而 这 依赖 于 键 的 有 序 性 。 扩 展 实现 来 支持 其 他 有 序 性 操作 也 是 十 分 有 益 的 练习 。 外 部 查找 的 应 用 常 
常会 将 索引 和 数据 隔离 。 对 于 B- 树 ， 我 们 通过 使 用 以 下 两 种 不 同类 型 的 结 点 做 到 这 一 点 。 

口 内 部 结 点 : 含有 与 页 相关 联 的 键 的 副本 。 

口 外 部 结 点 : 含有 指向 实际 数据 的 引用 。 

内 部 结 点 中 的 每 个 键 都 与 一 个 结 点 相关 联 ， 以 此 结 点 为 根 的 子 树 中 ， 所 有 的 键 都 大 于 等 于 与 此 
结 点 关联 的 键 ， 但 小 于 原 内 部 结 点 中 更 大 的 键 ( 如 果 存 在 的 话 ) 。 为 了 方便 这 里 使 用 了 一 个 特殊 的 
哨兵 键 , 它 小 于 其 他 所 有 键 。 一 开始 B- 树 只 含有 一 个 根 节点 ,而 根 结 点 在 初始 化 时 仅 含有 该 哨兵 键 。 
符号 表 不 含有 重复 键 ， 但 我 们 会 (在 内 部 结 点 中 ) 使 用 键 的 多 个 副本 来 引导 查找 。 ( 在 示例 中 ， 所 
有 键 都 是 单个 字母 并 使 用 小 于 所 有 字母 的 “*” 作 为 哨兵 键 。 ) 这 些 约定 能 够 一 定 程度 上 简化 代码 ， 
并 且说 明了 另 一 种 在 内 部 结 点 中 将 所 有 数据 和 链接 混合 的 便利 ( 而 且 是 广泛 使 用 的 ) 方式 ， 就 像 其 
他 查找 树 一 样 。 
6.0.2.4 ”查找 和 插入 

B- 树 中 查找 的 基础 是 在 可 能 含有 被 查找 键 的 唯一 子 树 中 进行 递归 搜索 。 当 且 仅 当 被 查找 的 键 
包含 在 集合 中 时 ， 每 次 查找 便 会 结束 于 一 个 外 部 结 点 。 在 内 部 结 点 中 遇 到 被 查找 的 键 的 副本 时 就 判 
断 查找 命中 并 结束 ,但 总 会 找到 相应 的 外 部 结 点 ， 因 为 这 么 做 可 以 简化 将 B- 树 扩展 为 有 序 符号 表 
的 实现 ( 当 M 很 大 时 这 种 情况 很 少 出 现 ) 。 举 一 个 具体 的 例子 : 假设 有 一 棵 6 阶 B- 树 ， 该 树 由 多 
个 含有 3 对 键 -链接 的 3- 结 点 、 含 有 4 对 键 -链接 的 4- 结 点 和 含有 5 对 键 - 链接 的 5- 结 点 以 及 
一 个 2- 根 结 点 组 成 ， 请 见 图 6.0.9。 在 查找 时 ， 从 根 结 点 开始 ， 根 据 被 查找 的 键 选 择 当前 结 点 中 的 
适当 区 间 并 根据 适当 的 链接 从 一 个 结 点 移动 到 下 一 个 结 点 。 最 终 ， 查 找 过 程 会 到 达 树 底 的 一 个 含有 
键 的 页 。 如 果 被 查找 的 键 在 该 页 中 ， 查 找 命中 并 结束 ; 如 果 不 在 ， 则 查找 未 命中 。 和 2-3 树 一 样 ， 
要 在 树 的 底部 插入 一 个 新 键 ， 可 以 使 用 递归 代码 。 如 果 空 间 不 足 ， 那 么 可 以 允许 被 插入 的 结 点 暂 
时 “ 洲 出 ”( 变 成 一 个 6- 结 点 ) ， 并 在 递归 调用 后 向 上 不 断 分 裂 6- 结 点 。 如 果 根 结 点 也 变 成 了 6- 
结 点 ， 则 可 以 将 它 分 裂 成 连接 了 两 个 3- 结 点 的 2- 结 点 ; 对 于 树 的 其 他 位 置 ， 我们 将 6- 结 点 结 点 
的 父 上 大 结 点 变 为 连接 着 两 个 3- 结 点 的 (K+1)- 结 点 。 将 上 文中 的 3 替换 成 M2，6 替换 成 M， 即 可 
得 到 M 阶 B- 树 中 的 查找 和 插入 操 作 的 方法 ， 请 见 图 6.0.10。 定 义 如 下 所 示 。 
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定义 。 一 棵 M 阶 B- 树 (MM 为 正 偶数 ) 或 者 仅 是 一 个 外 部 左 结 点 (会 有 个 键 和 相关 信息 的 树 ) ， 
或 者 由 若干 内 部 k- 结 点 (每 个 结 点 都 含有 上 个 键 和 条 链接 ， 链接 指向 的 子 树 表 示 了 链 之 问 的 问 

蝎 区 域 ) 组 成 。 它 的 结构 性 质 如 下 : 从 根 结 点 到 每 个 外 部 结 点 的 路 径 长 度 均 相同 (完美 平衡 ) ; 对 
BRN 大 在 2 到 M-1 之 间 ， 对 于 其 他 结 点 下 在 M2 到 M-1 之 间 。 9 














查找 E 


跟随 这 条 链接 ， 因 
为 E 在 * 和 K 之 间 人 





二 Ema 


部 全 生生 人 各 一 和 入 的 过 成 T 设 出 分开 


根 结 点 的 分 裂 产生 一 一 ~ 
了 一 个 新 的 根 结 点 






图 6.0.10 向 由 B- 树 表示 的 键 集中 插入 一 个 新 键 [Ey 
6.0.2.5 数据 表示 和 
按照 刚才 的 讨论 ， 我 们 在 选择 B- 树 结 点 的 表示 方法 上 有 很 大 的 自由 度 。 我 们 将 这 些 选择 封装 
在 一 个 Page API 中 (请 见 表 6.0.2) 。 它 可 以 关联 键 与 指向 Page 对 象 的 链接 ， 支 持 检测 页 是 否 滋 
出 、 分 裂 页 并 区 分 内 部 页 和 外 部 页 的 操作 。 你 可 以 将 Page 看 作 - 一 张 符号 表 ， 但 是 是 保存 在 外 部 介 
质 上 的 《本 地 或 是 网 络 上 的 文件 ) 。API 中 的 “打开 ”(open) 和 “关闭 ”(close ) 方法 指 的 是 将 
外 部 页 读 人 内 存 和 将 内 存 内容 写 回 外 部 页 ( 如 果 需 要 的 话 ) 的 过 程 。add() 方法 是 为 内 部 页 准备 
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的 ， 它 是 一 个 符号 表 操作 ， 会 将 给 定 页 和 以 该 页 为 根 结 点 的 子 树 中 的 最 小 键 关 联 起 来 。add() 和 
contains() 方法 是 为 外 部 页 准备 的 ， 和 SET 中 相应 的 方法 类 似 。 在 所 有 实现 中 ， 最 重要 的 方法 都 
是 split()。 在 分 裂 一 张 饱 和 页 时 ，sp1it0 方法 会 将 排序 后 位 置 正好 大 于 M2 的 键 移动 到 一 个 新 
的 Page 对 象 中 , 并 返回 该 对 象 的 引用 。 练习 6.15 讨论 了 使 用 BinarySearchST 对 Page 的 一 种 实现 。 
这 种 方法 将 B- 树 实现 在 了 内 存 中 ， 和 其 他 查找 树 的 实现 一 样 。 在 某 些 系统 中 ， 这 种 外 部 查找 的 实 
现 可 能 已 经 足够 了 ， 因 为 虚拟 内 存 系统 会 处 理 磁盘 访问 。 更 加 贴近 实际 的 实现 可 能 包含 与 硬件 相关 
的 代码 来 读 取 和 写 人 页 的 内 容 。 练 习 6.19 会 鼓励 你 用 网 页 实现 Page。 这 里 不 会 讨论 这 些 细节 ， 而 
强调 的 重点 是 B- 树 的 概念 能 够 广泛 用 于 各 种 场景 之 中 。 


6.0.2 ”B- 树 的 页 的 API 
public class Page<Key> 











Page(boolean bottom) 创建 并 打开 一 个 页 
void closeO 关闭 页 
void add(Key key) 将 键 插 入 (外 部 的 ) 页 中 
void add(Page p) 打开 p， 向 这 个 《内 部 ) 页 中 插入 一 个 条 目 
并 将 p 和 p 中 的 最 小 键 相 关联 
boolean isExternal() 这 是 一 个 外 部 页 吗 
boolean contains(Key key) 键 key 在 页 中 吗 
Page next(Key key) 可 能 含有 键 key 的 子 树 
boolean isFul1lO 页 是 否 已 经 溢出 
Page splitO 将 较 大 的 中 间 键 移动 到 一 个 新 页 中 
870] ， Iterable<Key> keys(C) 页 中 所 有 键 的 迭代 器 








在 这 些 准备 之 后 ， 后 面 框 注 “B- 树 集合 的 实现 ”的 BTreeSET 就 很 简单 了 。 它 用 递归 实现 了 
contains( 方法 ， 接 受 一 个 Page 对 区 作为 参数 并 处 理 了 以 下 3 种 情况 。 

口 如 果 当 前 页 是 外 部 页 且 键 在 该 页 中 ， 返 回 true。 

口 如 果 当 前 页 是 外 部 页 且 键 不 在 该 页 中 ,返回 false。 

口 否则 ， 递 归 地 在 可 能 含有 该 键 的 子 树 中 查找 。 

我 们 用 相同 的 递归 结构 实现 了 add() 方法 ， 只 是 在 没有 找到 该 键 的 时 候 将 它 插 入 到 了 树 底部 的 
页 中 ， 然 后 分 裂 回溯 过 程 中 所 遇 到 的 所 有 饱和 结 点 ， 请 见 图 6.0.11。 
6.0.2.6 ”性 能 

B- 树 最 重要 的 性 质 就 是 ， 在 实际 应 用 中 对 于 适当 的 参数 M， 查 找 的 成 本 是 常数 级 别 的 。 


TD 







命题 B。 含有 入 个 元 素 的 M 阶 B- 树 中 的 一 次 查找 或 插入 操作 需要 
在 实际 情况 下 这 基本 是 一 个 常数 。 


证 明 。 因 为 树 中 的 所 有 内 部 结 点 ( 非 根 结 点 也 非 外 部 结 点 的 所 有 结 点 ) 的 
键 的 他 和 结 点 分 裂 得 到 的 且 大 小 只 可 能 增长 〈 当 它 的 子 结 点 分 裂 时 ) ,所 
在 M2 到 M-1 之 间 。 在 最 好 的 情况 下 ,这 些 结 点 能 够 形成 一 棵 M-1 向 的 完 
可 以 得 到 命题 中 所 述 的 上 下 界 。 在 最 坏 情况 下 ， 根 结 点 只 含有 两 个 链接 并 分 别 
的 完全 树 。 将 对 数 的 底 设 为 M 可 以 得 到 一 个 非常 小 的 数 一 例 如 ， 当 M 为 1000 且 
树 的 高 度 小 于 4。 和 
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在 一 般 情况 下 ， 我 们 可 以 将 根 结 点 保存 在 内 存 中 这样 可 以 将 探查 次 数 减 1。 在 磁盘 和 网 络 中 
进行 查找 时 ， 应 该 在 开始 大 量 查找 前 显示 地 完成 这 一 步 。 在 带 有 缓存 的 虚拟 内 存 中 ， 应 该 将 根 结 点 
放 在 最 快 的 缓存 中 ， 因 为 它 是 访问 最 频繁 的 结 点 。 
6.0.2.7 ”空间 需求 
在 实际 应 用 中 , 我 们 对 B- 树 使 用 的 空间 也 很 感 兴趣 。 由 页 的 构造 可 知 , 它们 至 少 都 是 半 满 的 。 
在 最 坏 的 情况 下 ，B- 树 所 需 的 空间 是 所 有 键 占 用 的 实际 空间 的 一 倍 再 加 上 链接 所 需 的 空间 。 对 于 随 [61 
机 键 ，A.Yao 在 1979 年 ( 使 用 超出 了 本 书 范围 的 数学 方法 ) 证 明了 结 点 中 平均 含有 Min2 个 键 ， 因 
此 浪费 的 空间 约 占 44%。 和 其 他 查找 算法 一 样 ， 这 个 随机 模型 也 很 好 地 预测 了 在 实际 应 用 中 所 观察 
到 的 键 的 分 布 。 














算法 6.12_B- 树 集合 的 实现 


public class BTreeSET<Key extends Comparable<Key>> 
{ 
private Page root = new Page(true); 





public BTreeSET(Key sentine1) 
{ put(sentinel); } 


public boolean contains(Key key) 
{ return contains(root, key); } 


private boolean contains(Page h, Key key) 

和 . 
if (h.isExternal()) return h.contains(key); 
return contains(h.next(key), key); 

} 


public void add(Key key) 
{ 
put (root, key); 
if (root.isFul10) 
{ 
Page lefthalf = root; 
Page righthalf = root.split(); 
root = new Page(false); 
root.put (lefthalf); 
root.put(righthalf); 
} 
} 


public void add(Page h, Key key) 
和 
if (h.isExternalO) { h.put(key); return; } 


Page next = h.next(key); 
put(next, key); 
if (next.isFu11O)) 
h.put(next.split(O)); 
next.close(O); 
} 
和 


如 正文 所 述 ， 这 段 代码 实现 了 多 向 平衡 查找 树 ( B- 树 ) 。 它 在 查找 时 使 用 了 Page 数据 类 型 来 将 键 
和 可 能 含有 该 键 的 子 树 相关 联 ， 并 通过 检测 键 的 溢出 和 分 裂 结 点 的 方法 完成 了 插入 操作 ， 请 见 图 6.0.11。 872 
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命题 B 的 影响 之 巨大 ， 值 得 我 们 思考 。 你 会 猜 到 某 种 查找 算法 只 需 4 ~ 5 次 访问 即 可 搜索 你 能 
够 想象 的 最 大 文件 吗 ? B- 树 的 应 用 十 分 广泛 ， 就 是 因为 它 能 够 实现 这 一 点 。 在 实践 中 ， 主 要 的 挑 
战 是 在 实现 时 尽量 保证 B- 树 中 结 点 所 需 的 空间 ， 但 随 着 大 部 分 设备 上 的 存储 空间 的 增长 ， 这 已 经 
不 算 什么 问题 了 。 

基本 B- 树 抽象 的 许多 变种 都 很 容易 理解 。 一 类 变化 是 尽 可 能 在 内 部 结 点 中 保存 更 多 的 页 引用 
以 节省 时 间 ， 这 样 可 以 使 分 支 增多 并 将 树 更 加 扁平 化 。 另 一 类 变化 是 在 分 裂 前 将 兄弟 结 点 合并 以 
提高 存储 的 使 用 效率 。 对 算法 的 变种 以 及 参数 的 选择 应 应 于 具体 的 设备 和 应 用 。 尽 管 提高 的 
效率 也 仅 限于 常数 因子 的 范围 之 内 ， 但 对 于 E 号 表 或 是 大 量 事物 处 理 需 求 来 说 ， 这 样 的 改进 
也 有 着 重要 的 意义 ， 这 也 是 为 什么 B- 树 如 此 高 效 的 原因 














,即将 被 分 列 





图 6.0.11 构造 一 棵 庞大 的 B- 树 
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6.0.3 .后缀 数组 LE 
2 字符 中 处 理 的 高 效 算法 在 科学 计算 和 商业 应 用 中 都 有 着 重要 的 地 位 。 从 搜索 互联 网 文本 信息 到 
科学 家 为 了 揭 开 生命 的 秘密 而 努力 研究 的 庞大 基因 数据 库 ，21 世纪 中 基于 字符 串 的 计算 机 应 用 在 大 
规模 增长 。 和 以 前 一 样 ， 许 多 经 典 的 算法 都 十 分 有 效 ， 但 人 们 也 发 明了 一 些 很 好 的 新 算法 。 下 面 ， 
我 们 将 介绍 能 够 支持 这 些 算法 的 一 种 数据 结构 和 一 份 API。 首 先 ， 我 们 来 看 一 个 典型 的 (而 且 是 经 
- :“ 典 的 ) 字符 串 处 理 问题 。 
“6.0.3.1 最 长 重复 子 字符 串 

在 给 定 的 字符 串 中 ， 至 少 出 现 了 两 次 的 最 长 子 字符 串 是 什么 ?例如 ， 在 字符 串 "to be or 
not to be" 中 ,最 长 重复 子 字符 串 就 是 "to be"。 你 觉得 应 该 怎样 解决 这 个 问题 呢 7 你 能 在 长 度 
为 数 百 万 个 字符 的 字符 串 中 找 出 它 的 最 长 重复 子 字符 串 吗 ?这 个 问题 的 说 明 很 简单 ， 应 用 也 很 多 ， 
包括 数据 压缩 、 密 码 学 和 计算 机 辅助 音乐 分 析 等 。 例 如 ， 开发 大 型 软件 系统 中 的 一 种 常见 技术 叫做 _ 
代码 重 构 。 程 序 员 经 常会 通过 复制 粘贴 代码 从 原 有 的 程序 生成 新 的 程序 。 对 于 开发 了 很 长 时 间 的 --， 
大 段 程序 ， 将 不 断 重 复出 现 的 代码 转化 为 函数 调用 能 够 使 程序 更 加 容易 理解 和 维护 。 我 们 可 以 通过 
在 程序 中 寻找 最 长 重复 子 字 符 串 做 到 这 一 点 。 这 个 问题 的 另 一 个 应 用 是 计算 生物 学 。 在 给 定 的 基因 
中 存在 大 量 相同 的 片段 吗 ? 同样 ， 这 个 问题 背后 的 本 质 也 是 找 出 字符 串 中 的 最 长 重复 子 字符 申 。 科 
学 家 一 般 更 关心 细节 ( 事实 上 ， 重 复 子 字符 串 的 意义 正 是 科学 家 所 希望 理解 的 ) ， 但 这 个 问题 显然 
比 寻找 简单 的 最 长 重复 子 字符 串 更 难以 回答 。 
6.0.3.2 ”暴力 解法 

作为 热身 ， 考 虑 以 下 这 个 简单 


的 任务 ; 给 定 两 个 字符 串 ,找到 它 pom static int lcp(String s, String t) 





们 的 最 长 公共 前 级 ( 两 者 的 前 缀 字 int N = Math.minCs. length(), t.lengthO); 
符 申 中 的 相同 且 最 长 者 ) 。 例 如 ， et hart te es Freturn 14; 
acctgttaac 和 accgttaa 的 最 长 公 return N; 
并 前 纺 是 acc。 有 边框 注 中 的 代码 是 。 ” 
我 们 解决 更 加 复杂 问题 的 起 吉 : 它 两 个 字符 囊 的 最 长 公共 前 绥 











所 需 的 时 间 和 相 匹 配 的 子 字 符 申 长 

度 成 正比 。 现 在 ， 我 们 应 该 如 何在 给 定 的 字符 趾 中 找到 最 长 重复 子 字符 帅 呢 ? 根据 1cpC)， 马 上 可 
以 得 到 下 面 这 种 暴力 解法 : 将 一 个 字符 串 中 起 始 位 置 为 i 的 子 字符 趾 与 男 一 个 字符 申 中 起 始 位 置 为 
j 的 子 字符 串 相 比较 ， 记 录 匹 配 的 最 长 子 字 符 串 。 这 有 段 代 码 不 适合 处 理 长 字符 串 ， 因 为 它 的 运行 时 
间 至 少 是 字符 串 长 度 的 平方 级 别 ; 不 同 的 子 字符 串 对 i 和 j 的 数量 为 MN-1)2， 因 此 这 种 方式 调 
用 1cpO 的 次 数 将 会 是 ~ N/2。 用 这 种 方法 处 理 含有 上 百 万 个 字符 的 碱 基 对 序列 将 会 调用 几 百 亿 次 
1cpQ)， 显 然 这 是 不 可 行 的 。 3 


- .6.0.3.3 后 缀 排序 . 


-。 下 面 这 种 巧妙 的 方法 用 一 种 出 人 意 衬 的 方式 利用 排序 算法 高 效 地 拷 出 了 字符 帅 牛 的 最 长生 
复 子 字符 串 : 用 Java 的 substring() 方法 创建 一 个 由 字符 串 s 的 所 有 后 缀 字符 串 ( 由 字符 串 
.的 所 有 位 置 开 始 得 到 的 后 级 字符 串 ) 组 成 的 数组 ， 然 后 将 该 数组 排序 ， 请 见 图 6.0.12。 算 法 的 
关键 在 于 原 字符 串 的 每 个 子 字符 串 都 是 数组 中 的 某 个 后 缀 字符 串 的 前 组 。 在 排序 之 后 ， 最 长 重 
复 子 字符 串 会 出 现在 数组 中 的 相 令 位置。 因此， 只 需要 饥 历 排序 后 的 数组 -- 遍 即 可 在 相 邻 元 素 
中 找到 最 长 的 公共 前 组 。 这 种 方法 比 暴力 方法 有 效 得 多 。 但 在 实现 和 分 析 它 之 前 ， 我 们 先 介绍 “ 
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后 缀 排序 的 另 一 种 应 用 。 


6.0.3.4 ”定位 字符 串 
当 需 要 在 大 量 文本 中 寻找 某 个 特定 的 子 字符 串 时 ( 例如 ， “输入 字 符 串 
当 你 在 使 用 文本 编辑 器 或 是 在 浏览 网 页 时 ) ， 你 就 是 在 进行 一 人 


aacaagtttacaagc 


次 子 字符 囊 查 找 ， 即 5.3 节 中 讨论 过 的 问题 。 对 于 这 个 问题 , 我 
们 假设 文本 比 要 查找 的 字符 趾 庞大 得 多 ， 并 将 注意 力 集中 在 查 。 “6 

找 字符 申 的 预 处 理 上 ， 以 保证 能 够 在 任意 给 定 的 文本 中 高 效 的 、。 1 acaagtttacaage 
找到 该 子 字符 叫 。 当 在 浏览 器 中 输入 要 查找 的 关键 字 时 ， 就是。 ; agtttacaage 
: 
’ 


所 有 后 组 字符 囊 
aacaagtttacaagC 


agtttacaagC 
在 进行 一 次 字符 串 键 查找 ， 即 5.2 节 的 主题 。 搜 索引 擎 必然 已 经 gtttacaagc 
预先 计算 得 到 了 一 张 索引 表 ， 因 为 它 不 可 能 即时 地 根据 输入 的 


tttacaagc 


… 小 它 的 体积 。 一 种 方法 是 将 网 页 按照 重要 程度 排序 (可 以 使 用 
3.5.5 节 讨论 的 PageRank 算法 ) 并 只 选择 排序 等 级 较 高 的 网 页 
而 非 全 部 网 页 。 另 一 种 减 小 符号 表 大 小 的 方法 是 将 多 个 关键 记 
(以 空格 分 隔 ) 作为 预 处 理 得 到 的 索引 表 的 键 并 和 URL 关联 。 
那么 ， 当 你 查找 一 个 关键 词 时 ， 搜 索引 擎 可 以 通过 索引 找到 含 
有 被 查找 的 键 ( 即 关键 词 ) 的 相对 重要 的 ) 网 页 ， 并 在 该 页 “最 长 本 复 子 字符 


Eaagc 
ye 


关键 字 扫 措 联 网 中 的 所 有 页 面 。 根 据 3.5 节 的 讨论 (请 见 3.5.4 。。 2 acaage 
节 框 注 “ 文 件 索引 ”的 FileIndex ) ， 理 想 情况 下 最 好 有 一 张 11 aagC 
反 向 索引 符号 表 将 每 个 被 查找 的 字符 串 和 所 有 含有 它 的 网 页 关 “二 3 
联 起 米 一 在 符号 表 的 每 个 条 目 中 ， 键 即 为 被 查找 的 字符 串 ， 2 
而 值 则 为 一 组 指针 ， 请 见 图 6.0.13 ( 每 个 指针 都 含有 能 够 定位 “， 机 语 的 后 妇 字符 电 
该 键 在 互联 网 上 具体 位 置 所 希 的 信息 一 这 可 以 是 一 个 网 页 的 31 aagcetacaagc ， 一 
URL 加 上 键 的 出 现 位 置 的 偏 移 量 。) 在 实际 应 用 中 ; 这 样 的 符 。” ? acaagcetacaagc 
号 表 会 非常 非常 大 ， 因 此 搜索 引擎 会 使 用 各 种 复杂 的 算法 来 缩 22 agc 

4 pe 

y 


gtttacaagc 
tacaagc 
ttacaagc 
tttacaagc 


面 中 使 用 字符 串 查找 来 定位 关键 词 。 使 用 这 种 方法 时 ， 如 果 文 aacaag ttt acaag Cc 
本 含有 的 是 “everything” 而 你 要 找 的 是 “thing”.， 那 可 能 会 图 6.0.12 使 用 后 绥 排 序 计算 最 
找 不 到 。 对 于 某 些 应 用 ， 构 造 一 个 能 够 帮助 我 们 找 出 文本 中 的 ”长 重复 子 字符 串 


任意 子 字 符 事 的 索引 是 值得 的 。 这 么 做 可 能 是 为 了 对 一 本 非常 

重要 的 文学 作品 进行 语言 学 研究 ， 或 是 为 了 找 出 可 能 成 为 许多 科学 家 研究 对 象 的 某 段 碱 基 对 序列 ， 

或 者 找 出 访问 量 很 大 的 网 页 。 同 样 ， 在 理想 情况 下 ， 索 引 表 应 该 将 文本 字符 串 的 所 有 子 字符 串 分 别 
和 它们 的 出 现 位 置 关联 起 来 ， 如 图 6.0.14 所 示 。 这 种 方法 的 问题 显然 是 子 字符 串 的 总 数 太 大 ， 在 符 
号 表 中 为 每 个 子 字符 串 创建 一 个 条 目 不 现实 .( 一 段 含有 N 个 字符 的 文本 含有 NON+D/2 个 子 字符 串 。) 
图 6.0.14 中 的 符号 表 需 要 含有 b、. be、bes、best、besto、bestof、e、es、est、esto、estof、s、 
st、 sto、 st of、t、to、tof、o、of 和 许 许 多 多 其 他 子 字符 串 的 条 目 。 这 次 我 们 也 可 以 用 后 缀 排 “ 
序 的 方法 解决 这 个 问题 ， 就 像 3.1 节 中 用 二 分 查找 对 符号 表 的 第 一 次 实现 一 样 。 我 们 可 以 将 入 个 后 
级 作为 键 ， 以 这 些 键 (后 级 ) 创建 一 个 有 序 的 数组 并 使 用 二 分 查找 法 搜索 数组 ， 比 较 被 查找 的 键 和 
所 有 后 级， 请 见 图 6.0.15。 
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在 以 字符 串 为 键 的 符号 表 中 进行 
查找 : 找 出 含有 该 键 的 网 页 。 . 


键 值 











te vas the bexr| J \ | 


es 
子 字符 串 查 找 ; 在 
网 页 中 找到 该 能 








图 6.0.13 理想 化 的 一 次 由 型 的 网 络 搜索 、 图 60.14 理想 化 的 一 张 文 本 字符 申 索 引 表 


后 级 ” 有 序 后 绿 数 组 


best of times it was the a 
peter ines feos the | 
ns te 


es 1t was the 


Ed py Le 
a 
和 
$ 





Seo 


egt: 


best of tines it was the 
ies Tt was 
nes it was he 
he 
the best of tines it was the 


best of rimes it was the 区 
as 
he best of tines it was the 

Dd 


在 二 分 查找 中 通过 rank() 
方法 找到 的 含有 “th” 的 区 间 





1 
二 
和 


图 60.15 ”后 级 数组 中 的 一 分 查找 - 8 





6.0.3.5 API 及 其 用 例 

”为 了 解决 这 两 个 问题 ， 我 们 给 出 了 以 下 API。 它 含有 构造 函数 、length() 方法 、select() 和 
index() 方法 分 别 给 出 了 有 序 后 级 数组 中 给 定位 置 的 后 级 和 它 的 索引 值 、1cp() 方法 会 返回 每 个 后 
级 和 它 在 数组 中 的 前 一 个 后 毕 的 最 长 公共 前 级 、rank() 方法 能 够 给 出 小 于 给 定 键 的 后 缀 数量 。 ( 自 
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从 第 1 章 中 第 “次 学 习 二 分 查找 后 就 一 直 在 使 用 它 。) 我 们 用 后 级 数组 表示 有 序 后 组 字符 囊 列表 的 
这 种 抽象 数据 结构 ， 但 实际 使 用 的 并 不 一 定 是 字符 串 数组 ， 如 表 6.0.3 所 示 。 


表 6.0.3 后缀 数组 的 AP| 





public class SuffixArray 





SuffixArray (CString text) ”为 文本 text 构造 后 级 数组 


int .lengthO) 
String selectCint i) 
int index(Cint i1) 


int lcpCint i) 


int rank(CString key) 


在 右边 框 注 所 示 的 例子 中 ， 
select(9) 的 结果 是 “as the 
best of times...”、index(9) 
的 值 是 4、1cp(20) 的 值 是 10 
(因为 “it was the best of 
times...” 和 “it was the” 
的 公共 前 组 .“it was the” 的 长 
度 为 10) 、rank("th") 的 值 是 
30。 注意 ，selectCrank(Ckey)) 
是 有 序 后 级 数组 中 第 一 个 以 key 
为 前 缀 的 后 组 字符 串 ， 键 key 
在 正文 中 出 现 的 其 他 位 置 都 在 


.后 级 数组 中 紧 跟着 该 条 目 (请 


见 图 6.0.15) 。 使 用 这 份 API 
可 以 立即 写 出 框 注 中 的 代码 。 
LRS 类 ( 见 本 页 框 注 ) 会 为 标 
准 输入 得 到 的 文本 构造 后 级 数 
组 ， 并 根据 扫描 数组 所 得 的 最 


“大 :1cpO 〇 值 找 出 文本 中 的 最 长 














重复 子 字符 串 。KWIC 类 【 见 下 
页 框 注 ) 会 为 命令 行 参数 指定 
的 文本 构造 后 级 数组 ， 扩 标准 
输入 接受 查询 并 打印 出 被 查询 


文本 text 的 长 度 
后 组 数组 中 的 第 1 个 元 素 (1 在 0 到 入 -1 之 间 ) 
select(i) -的 索引 (1i 在 0 到 N-1 之 间 ) 


select(i) 和 select(i-1) 的 最 长 公共 前 级 的 长 度 (1 在 1 
到 N-1 之 间 ) 


小 于 键 key 的 后 组 数量 


public class LRS 
全 
public static void main(String[] args) 
{ 
String text = StdIn.readA110); 
int N = text.lengthO; 
SuffixArray new SuffixArray(text); 
String 1rs = ""; 
for Cint 1 = 1; 1 <N; i++) 








int length ~ sa.1cp(i); 
if Clength > 1rs, length()) 
1rs = sa.select(i). substring(0, length); 


} 
Std0ut.printin(1rs); 


最 长 重复 子 字符 串 算法 的 用 例 


% more tinyTale.txt 

it was the best of times it was the worst of times 

it was the age of wisdom it was the age of foolishness 
it was the epoch of belief it was the epoch of incredulity 
it was the season of light it was the season of darkness 
it was the spring of hope it was the winter of despair 


% java LRS < tinyTale.txt 
st of times it was the 


”的 于 字符 串 在 文本 中 的 上 下 文 (该 字符 素 的 前 后 若干 个 字符 ) 。KWIC 这 个 名 字 表 示 的 是 上 下 文中 


的 关键 词 (keyword-in-context ) 查找 ， 最 早出 现在 20 世纪 60 年 代 。 这 些 典 型 的 字符 串 处 理应 用 
代码 的 简洁 和 高 效 令 人 赞叹 。 这 也 说 明了 精心 设计 API 的 重要 性 ( 以 及 简单 而 巧妙 的 思想 的 影响 


力 ) 。 
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public class KWIC 
{ 
public static void main(String[] args) 


In in = new In(args[0]); 
int context = Integer.parseInt(args[1]); 


String text = in.readA110) .replaceAl11("\\s+t"，"” ™);; 
int N = text.lengthO); 
SuffixArray sa = new SuffixArray(text); 


while (StdIn.hasNextLineO) 
二 


String q = StdIn.readLineO; 
for (int i = sa.rank(q); i < N && Sa.select(i).startsWith(q); i++) 


int from = Math.max(0, sa.index(i) - context); 
int to = Math.min(N-1, from + q.length() + 2*context); 
StdOut.printin(text. substring(from, to)); 


} 
StdOut.print1nO; 


上 下 文中 的 关键 词 的 索引 用 例 


% java KWIC tale.txt 15 
search 


0 st giless to search for contraband 
her unavailing search for your fathe 
le and gone in search of her husband 
t provinces in search of impoverishe 
dispersing in search of other carri 
n that bed and search the straw hold 


better thing 
t is a far far better thing that i do than 
Some sense of better things else forgotte 
was capable of better things mr carton ent 








881 








6.0.3.6 实现 

算法 6.13 中 的 代码 简洁 明了 地 实现 了 SuffixArry 的 API。 它 的 实例 变量 包括 一 个 字符 申 数 
组 和 ( 为 了 节省 代码 ) 一 个 表示 数组 长 度 的 的 变量 N ( 既是 字符 串 的 长 度 也 是 它 的 后 级 字符 串 数 
量 ) 。 类 的 构造 函数 会 构造 后 缀 数组 并 将 它 排序 ， 因 此 select(i) 只 需 返 回 suffixes[i] 即 可 。 
index() 的 实现 也 只 要 一 行 代码 ， 但 稍微 复杂 因为 后 组 字符 事 的 长 度 就 说 明了 它 的 起 始 位 
置 。 长 度 为 的 后 缀 字符 串 的 起 始 位 置 为 0， 长 度 为 N-1 的 后 绥 字 符 串 的 起 始 位 置 为 1， 长 度 为 
N-2 的 后 缀 字符 串 的 起 始 位 置 为 2， 依 此 类 推 。 因 此 index(i) 的 返回 值 即 为 N-suffixes[i]. 
Tength()。 由 6.0.3.2 节 中 的 静态 1cpQ 〇 方法 可 以 很 容易 得 到 这 里 的 1cp( 方法 的 实现 ，rank() 
方法 与 3.1.5 节 “ 算 法 3.2 ( 续 ) ”中 基于 二 分 查找 的 符号 表 的 实现 也 基本 相同 。 同样 ， 实 现 的 简洁 
与 优雅 并 不 能 掩盖 这 是 一 种 复杂 的 算法 ， 它 解决 了 如 最 长 重复 子 字符 串 这 种 其 他 方法 无 法 解决 的 重 
要 问题 。 
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6.0.3.7 性 能 

后 绷 排 序 算法 的 效率 取决 于 Java 的 子 字符 串 提取 操作 使 用 的 内 存 空间 ， 它 是 一 个 常数 一 一 每 
个 子 字符 串 都 是 由 标准 对 象 、 指 向 原 字符 串 的 指针 和 它 的 长 度 组 成 的 。 因 此 ， 索 引 的 大 小 和 字符 串 
的 长 度 是 线性 关系 。 这 让 人 有 些 意外 ， 因 为 所 有 子 字符 串 中 的 字符 总 数 为 - Y/2， 即 字符 串 长 度 的 
平方 级 别 。 另 外 ， 这 种 平方 级 别 的 性 能 也 会 大 大 影响 子 字符 串 数组 的 排序 成 本 。 我 们 要 记 住 的 重要 
一 点 是 ， 这 种 方法 对 长 字符 串 有 效 的 原因 在 于 Java 的 字符 串 表示 方法 : 当 交 换 两 个 字符 串 时 ， 实 际 
交换 的 仅仅 是 对 它们 的 引用 ， 而 非 字符 串 本 身 。 虽 然 当 两 个 字符 串 有 很 长 的 公共 前 组 时 比较 它们 的 
成 本 与 它们 的 长 度 成 正比 ,但 在 一 般 的 应 用 场景 下 ， 大 多 数 比 较 都 只 需要 检查 几 个 字符 。 如 果 是 这 
样 的 话 ， 后 级 数组 的 排序 时 间 就 是 线性 对 数 的 。 例 如 ,在 许多 应 用 中 ， 随 机 字符 串 模型 都 是 合理 的 。 


命题 C。 使 用 三 向 字符 串 快速 排序 ， 构 造 长 度 为 N 的 随机 字符 串 的 后 缓 数组， 平均 所 需 的 空间 
与 人 成 正比 ， 字 符 比较 次 数 与 ~ 2NinN 成 正比 。 


讨论 。 后 级 数组 的 空间 需求 很 明显 ， 但 它 所 需 的 时 间 来 自 于 PJaquet 和 W.Szpankowski 的 一 份 
艰深 而 复杂 的 研究 成 果 。 他 们 证 明了 将 所 有 后 级 排序 的 成 本 渐进 于 将 N 个 随机 字符 囊 排序 的 成 
本 (请 见 5.1.4.4 节 中 的 命题 E) 。 


算法 6.13 ”后 缀 数组 (初级 实现 ) 


public class SuffixArray 





private final String[] suffixes; // 后 组 数组 
private final int N; // 字符 事 (和 数组 ) 的 长 度 


public SuffixArray(String s) 
{ 
N = s.lengthO; 
suffixes = new String[N]; 
for (int 1 = 0; 1 < Ni i++) 
suffixes[i] = s.substring(i); 
Quick3way. sort(suffixes); 


} 

public int lengthO) { return N; } 

public String select(int i) { return suffixes[i]; } 

public int index(Cint i) { return N - suffixes[i].lengthO); } 


// 请 见 6.0.3.2 节 框 注 “ 两 个 字符 囊 的 最 长 公共 前 组” 
public int lcp(int i) 
{ return lcp(suffixes[i], suffixes[i-1]); } 
public int rank(String key) 
{ // 二 分 查找 
int 1o =-0,hi=N-1; 
while (lo <= hi) 
{ 
int mid = lo+ (hi - 10) / 2; 
int cmp = key.compareTo(suffixes[mid]); 
if cmp < 0) hi = mid - 1; 
else if (cmp > 0) lo = mid + 1; 
else return mid; 
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return 1o; 
} 


本 
SuffixArray API 的 实现 效率 取决 于 Java 的 String 类 的 不 可 改变 性， 这 种 性 质 使 得 子 字符 串 实 际 上 都 
是 引用 ， 提取 于 字符 中 具 竺 常 数 时 间 《请 见 正文 ) 。 





6.0.3.8 ”改进 的 实现 < 
SuffixArray 的 初级 实现 在 最 坏 情况 下 .输入 字符 串 . 

的 性 能 很 精 。 例 如 ， 如 果 所 有 的 字符 都 相同 ， ge 

后 级 数组 的 排序 会 检查 每 个 后 级 字符 串 中 的 每 ec al i 

个 字符 ， 所 需 的 时 间 为 平方 级 别 。 对 于 我 们 用 cy || 

作 示例 的 碱 基 对 序列 字符 串 或 是 自然 语言 的 广 ag 级 至 少 出 现 过 两 次 

本 字符 串 ， 这 可 能 不 是 问题 ， 但 算法 对 于 含有 

一 大 串 相同 字符 的 文本 可 能 会 很 慢 。 此 外 ， 查 caagtttacaagc 

找 最 长 重复 子 字符 叫 所 涡 的 时 间 可 能 会 是 子 宁 gE teracaage 

符 囊 长 度 的 平方 级 别 ， 因 为 重复 的 子 字符 串 的 5 eg 和 Se 

所 有 前 缀 都 会 被 检查 ( 请 见 图 6.0.16 )。 对 于 《 双 2 EE oe 

城 记 》 来 说 这 不 是 问题 ， 因 为 其 中 最 长 的 重复 

子 字符 申 为 : 4 Sg tttacaagc 


gc 
"s dropped because it would have 9 tttacaagc 
been a bad thing for me in a ee 
worldly point of view i tttacaagc 


只 有 84 个 字符 。 然 而 ， 对 于 经 常 含有 很 比较 成 未 绽 沙 为 


多 长 的 重复 部 分 的 碱 基 对 序列 来 说 ， 这 就 是 一 142+…+HaMf 一 M312 


个 严重 的 问题 了 。 如 何 避免 查找 重复 子 字符 : 
串 时 出 现 的 这 种 平方 级 别 运算 呢 ? 幸运 的 是 ， 。 四 “1。 这 可 天 长 村 生地 符 由 的 成 本 是 重复 子 


了 Weiner 在 1973 年 的 研究 显示 我 们 可 以 保证 


在 线性 时 间 内 解决 最 长 重复 子 字符 囊 问题 。 Weiner 算法 的 基础 是 构造 一 棵 后 缀 字符 串 树 ( 即 一 棵 由 
所 有 后 级 字符 串 组 成 的 字典 查找 树 ) 。 如 果 在 每 个 字符 处 使 用 多 个 链接 ， 后 组 树 在 解决 许多 实际 问 
题 时 会 消耗 非常 大 的 空间 ， 这 又 推动 了 后 强 数 组 的 发 展 。 在 20 世纪 90 年 代 ，U.Manber 和 E.Myers 
演示 了 一 种 构造 后 织 数 组 的 线性 对 数 级 别 的 算法 以 及 一 个 同时 完成 预 处 理 和 对 后 级 数组 排序 以 
支持 常数 时 间 的 1cp0 方法 。 之 后 人 们 又 发 明了 车 干线 性 时 间 的 后 组 排序 算法 。 经 过 一 些 改造 ， 
Manber-Myers 算法 的 实现 也 能 够 支持 两 个 参数 的 1cp() 方法 ， 以 在 常数 时 间 内 找 出 给 定 的 但 不 一 
定 是 相 邻 的 两 个 后 绥 之 间 的 最 长 公共 前 级 。 这 也 是 对 初级 实现 的 一 项 重大 改进 。 这 些 结果 非常 邻 人 
惊 证， 因为 它们 所 达到 的 效率 远 远 超出 了 人 们 的 预期 。 JE 


函数 和 常数 时 间 的 1cp() 方法 的 实现 。 
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基于 这 些 思想 的 SuffixArray 实现 足以 高 效 解决 许多 字符 串 处 理 问题 ， 古人 全 全 
单 ， 如 我 们 的 LRS 和 KWIC 例子 所 示 。 

后 缀 数组 是 自 20 世纪 60 年 代 解 决 uc 索引 的 单词 考 找 村 以 玉 数 十 年 研究 积累 的 成 果 。 我 们 
讨论 的 很 多 种 算法 都 是 许多 研究 者 在 几 十 年 的 实践 中 发 明 的 ， 这 些 问题 包括 将 《牛津 英语 大 词典 》 
搬 上 互联 网 第 一 代 搜索 引擎 以 及 人 类 基因 组 测序 , 等 等 .这 完全 说 明了 算法 的 设计 和 分 析 的 重要 性 。 


为 0*+1-»3-5 入 口 
分 配 2 个 单位 站 
的 流量 





出 口 一 


为 0 一 2 一 4 一 5 分 配 
个 单位 的 流量 9 


将 1 个 单位 的 流量 
从 1 一 35 重新 
分 配 至 1 一 4~5 





为 0-*2-3 一 5 分 配 /6 
] 个 单位 的 流量 ”LA 





图 6.0.17 为 输 油 网 络 分 配 流量 


”一 个 出 日 (比如 一 个 大 型 的 炼油 厂 ) ， 


6.0.4 ”网 络 流 算法 

下 面 我 们 将 讨论 一 种 图 的 模型 ， 它 的 成 功 之 处 不 仅 在 于 为 
我 们 提供 了 能 够 轻松 描述 解决 实际 问题 的 模型 ， 而 且 使 用 这 些 
模型 我 们 能 得 到 许多 高 效 的 算法 来 解决 问题 。 我 们 将 要 讨论 的 
解决 方案 说 明了 两 种 特定 需求 之 间 的 矛盾 ， 即 具有 广泛 适用 性 
的 需求 与 能 够 解决 特殊 问题 的 需求 。 网 络 流 算法 研究 的 迷人 之 
处 在 于 它 紧凑 优雅 的 实现 几乎 能 够 同时 达到 这 两 个 目标 。 你 将 
会 看 到 ， 我 们 的 实现 非常 易 懂 而 且 能 够 保证 运行 时 间 与 网 络 大 
小 成 正比 。 

网 络 流 问题 的 经 典 解决 方案 和 第 4 章 中 介绍 的 那些 图 算法 
紧密 相关 。 基 于 已 有 的 工具 ， 我 们 可 以 编写 非常 精炼 的 程序 来 
解决 它们 。 我 们 已 经 在 许多 问题 中 看 到 ， 良 好 的 算法 和 数据 结 
构 能 够 大 幅 减 少 解决 问题 所 需 的 时 间 。 人 们 还 在 积极 研究 该 领 ， 
域 中 更 好 的 算法 和 数据 结构 并 不 断 地 发 明 新 的 方法 。 
6.0.4.1 ”物理 模型 

首先 用 一 个 理想 化 的 物理 模型 来 介绍 几 个 直观 的 概念 。 请 
想象 一 组 相互 连接 大 小 不 一 的 输油管 道 ， 在 连接 处 装 有 能 够 控 


. 制 原 油 流向 的 开关 ， 如 图 6.0.17 所 示 。 


我 们 还 假设 这 个 输 油 网 只 有 一 个 入 口 ( 比如 一 一 外 六 四) 和 
所 有 的 输油管 最 终 都 会 
和 它们 相连 。 在 每 个 结 点 处 ， 原 油 流入 量 和 流出 量 都 会 达到 的 
平衡 。 我 们 用 相同 的 单位 衡量 流量 和 管道 的 输送 能 力 〈 例如 ， 

加 仑 每 秒 ) 。 如 果 在 每 个 开关 处 都 有 流入 管道 的 总 流量 和 流出 


“管道 的 总 流量 相等 ， 那 么 问题 就 不 存在 了 : 只 需要 将 所 有 输 油 


管 充满 即 可 。 和 否则， 虽然 并 不 是 所 有 管道 都 是 饱和 的 ， 但 原油 
仍然 会 根据 各 个 关节 处 的 开关 设置 在 网 络 中 流动 ， 并 将 在 关节 
处 满足 一 个 局 部 平衡 条 件 : 流入 结 点 的 流量 等 于 流出 结 点 的 流 
量 , 请 见 图 6.0.18。 
在 每 个 结 点 处 入流 


量 都 和 出 流量 相等 
(入 口 和 出 口 除外 ) 


NY 


图 6.0.18 ”流量 网 络 中 的 局 部 平衡 
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例如 ， 如 图 6.0.17 所 示 ， 一 开始 操作 员 可 能 会 将 原油 的 路 径 设 为 0 一 1 一 3 一 5， 这 条 路 线 能 
够 输送 2 个 单位 的 流量 , 然后 再 打开 0 一 2 一 4 一 5 这 条 路 径 上 的 开关 , 又 可 以 输送 1 个 单位 的 流量 。 
因为 0 一 1、2 一 4 和 3 一 5 都 已 经 人 和 ， 已 经 无 法 直接 将 更 多 的 原油 从 0 输送 到 5。 但 如 果 调 整 1 
处 的 开关 将 1 一 4 充满 ， 那 么 就 又 可 以 在 3 一 5 空 出 足够 的 空间 使 得 0 一 2 一 3 一 5 可 以 再 增加 1 
个 单位 的 流量 。 即 使 是 这 样 一 个 简单 的 网 络 ， 找 到 能 够 使 得 流量 最 大 化 的 开关 配置 也 并 不 容易 ;而 
对 于 更 加 复杂 的 网 络 ， 我 们 感 兴趣 的 显然 是 下 面 这 个 问题 : 怎样 配置 所 有 开关 才能 使 从 入 口 到 出 口 
的 流量 最 大 化 ? 我 们 可 以 直接 用 只 含有 一 个 起 点 和 一 个 终点 的 加 权 有 向 图 构造 出 这 个 问题 的 模型 。 
图 中 的 边 对 应 的 是 输油管 道 ， 顶 点 对 应 的 是 配 有 能 够 控制 原油 走向 和 流量 的 开关 结 点 ， 边 的 权重 对 
应 的 是 管道 的 容量 ， 请 见 图 6.0.19。 我 们 假设 边 是 有 向 的 ， 即 原油 在 每 个 管道 中 都 只 能 朝 着 一 个 方 
向 流动 。 每 条 管道 中 都 流动 着 一 定量 的 原油 ， 流 量 小 于 等 于 管道 的 容量 ， 而 每 个 顶点 都 需要 满足 流 
入 量 和 流出 量 相等 。 这 种 抽象 的 流量 网 络 是 一 个 能 够 解决 问题 的 实用 模型 ， 它 能 够 直接 应 用 于 许多 
场景 ， 而 间接 适用 的 则 更 多 。 我 们 有 时 会 用 原油 流 过 管道 的 方式 直观 地 说 明 一 些 基本 的 概念 ， 但 这 
里 的 讨论 同样 适用 于 物流 分 配 的 通道 等 情况 ,鉴于 我 们 在 各 种 最 短路 径 算法 中 对 “距离 "概念 的 用 法 ， 
在 必要 的 时 候 会 抛弃 图 的 所 有 物理 意义 ， 因 为 我 们 讨论 的 所 有 定义 、 性 质 和 算法 所 基于 的 抽象 模型 
并 不 一 定 遵守 物理 定律 。 事 实 上 ， 人 们 对 网 络 流 问题 的 主要 兴趣 在 于 许多 其 他 问题 都 能 转化 为 这 个 
模型 ， 下 一 个 小 节 中 将 会 详 述 。 





tinyFN. txt 标准 图 容量 图 流量 的 表示 
V. 起 点 、、 01 2.0 2.0 
Ng 机 02 3.0 1.0 
8 3 0 30 
01 2.0 14 1.0 0.0 
02 3.0 23 1.0 00 
13 3.0 2 4 10 1.0 
4 101- 人 3 5 2.0°.2,0 
23 1.0 45.3.0' 1.0 
24 1.0 t 
3 30 l 
“0 每 条 边 
“4 g Fk 关联 的 流量 
容量 下 终点 
图 6.0.19 网络 流 问题 详解 
6.0.4.2 定义 


因为 它 广 泛 的 应 用 性 ， 我 们 需要 用 稍 的 语言 说明 刚才 刘 绍 的 通信 的 听 全 和 洒洒 。 


定义 。 一 个 流量 网 络 是 一 一 张 边 的 权重 《这 里 称 为 容量 ) 为 正 的 加 权 有 向 图 。 一 个 st- 流量 网 络 有 
两 个 已 知 的 顶点 ， 即 起 点 5 和 终点 t。 


有 时 我 们 会 认为 某 些 边 的 容量 是 无 限 的 ， 或 者 说 是 没有 容量 限制 的 。 这 表示 不 会 将 其 中 的 流量 
和 它 的 容量 进行 比较 ， 或 者 它 的 容量 必然 比 所 有 流量 都 大 。 我 们 将 流向 一 个 顶点 的 总 流量 ( 所 有 指 
向 该 项 点 的 边 中 的 流量 之 和 ) 称 为 该 项 点 的 流入 量 ， 流 出 一 个 顶点 的 总 流量 ( 由 该 顶点 指出 的 所 有 
边 中 的 流量 之 和 ) 称 为 该 顶点 的 流出 量 ， 而 两 者 之 差 (流入 量 减 去 流出 量 ) 则 为 称 为 该 顶点 的 净 流量 。 
为 了 简化 讨论 ， 我 们 假设 没有 从 指出 的 边 或 是 指向 s 的 边 。 


582 > 第 6 章 背 景 


定义 。st- 流量 网 络 中 的 sf- 流量 配置 是 由 一 组 和 每 条 边 相关 联 的 值 组 成 的 集合 ， 这 个 值 被 称 为 
边 的 流量 。 如 果 所 有 边 的 流量 均 小 于 边 的 容量 且 满 足 每 个 顶点 的 局 部 平衡 ( 即 净 流量 均 为 零 ， 
s 和 七 除外 ) ， 那 么 就 称 这 种 流量 配置 方案 是 可 行 的 。 


我 们 将 终点 的 流 人 量 称 为 st- 流量 的 值 。 命 题 C 将 会 证 明 这 个 值 和 起 点 的 流出 量 是 相等 的 。 有 
了 这 些 定义 ， 就 能 够 正式 地 描述 这 个 基本 问题 了 。 
最 大 st 流量 。 给 定 一 个 st- 流量 网 络 ， 找 到 一 种 st- 流量 配置 ， 使 得 从 s 到 t 的 流量 最 大 化 。 
为 了 简洁 ， 我 们 将 这 样 的 流量 配置 称 为 最 大 流量 ， 那 么 在 网 络 中 寻找 这 种 配置 的 问题 就 是 一 个 
887| 最 大 流量 问题 。 在 某 些 应 用 中 ， 只 需要 知道 最 大 流量 的 值 即 可 ， 但 一 般 情 况 下 人 们 还 是 希望 知道 达 
[88s| 到 该 值 的 具体 流量 配置 (各 条 边 的 流量 值 ) 。 





private boolean localEq(FlowNetwork G, int v) 
人 // 检查 大 个 顶点 v 的 局 部 平衡 
double EPSILON = 1E-11; 
double netflow = 0.0; 
for (FlowEdge e : G.adj(v)) 
if (v == @.from()) netflow -= e.flowO); 
else netflow += e.flowO); 


return Math.abs(netflow) < EPSILON; 
} 
private boolean isFeasible(FlowNetwork G) 
{ 
// 确认 每 杂 边 的 流量 非 负 且 不 大 于 边 的 容量 
for (int v=0iv< GO V++) 
for (FlowEdge e : G.adj(v)) 


if (e.flowO <0 || e.flowO > e.capO) 
return false; 


// 检查 看 个 顶点 的 局 部 平衡 
for (int v = 0; v < GVO; v++) 
if (v Il=s && v 1= t && !localEq(v)) 
return false; 


return true; 


上 
检查 流量 网 络 中 的 一 种 流量 配置 是 否 可 行 


6.0.4.3 API 
表 6.0.4 和 表 6.0.5 所 示 的 FlowEdge 和 FlowNetwork 简单 扩展 了 第 3 章 中 相应 API。 我 们 将 会 
在 6.0.4.6 节 学 习 FlowEdge 的 一 种 实现 ， 它 的 基础 是 4.3.2 节 中 的 weightedEdge 类 并 添加 了 一 个 实 
be 例 变 量 来 保存 边 的 流量 。 流 量 是 有 方向 的 ， 但 FlowEdge 的 基 类 并 不 是 WeightedDirectedEdge， 
因为 它 还 需要 解决 下 面 将 要 描述 的 一 个 更 加 抽象 的 剩余 网 络 问题 。 我 们 需要 使 每 条 边 都 出 现在 它 … 
的 两 个 顶点 的 邻接 表 中 才能 实现 剩余 网 络 。 剩 余 网 络 能 够 增 减 流量 并 检测 一 条 边 是 否 已 经 饱和 人 
(无 法 再 增 大 流量 ) 或 者 是 否 为 空 ( 无 法 再 减 小 流量 ) 。 这 些 抽象 是 通过 residualCapacityO 
“和 addResidualFlow() 方法 实现 的 ， 我 们 将 在 之 后 讨论 它们 。F1lowNetwork 的 实现 与 4.3.2 节 中 
WeightedEdge 的 实现 基本 相同 , 因此 这 里 将 它 省 略 。 为 了 简化 文件 格式 ， 我 们 约定 起 点 的 编号 为 
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终点 的 编号 为 天 1 ,请 见 图 6.0.20。 有 了 这 些 API 之 后 最 大 流量 算法 的 目标 就 很 明确 了 : 构造 一 个 网 络 ， 
计算 所 有 边 中 保存 流量 的 实例 变量 的 值 并 使 得 网 络 中 的 流量 最 大 化 。 框 注 所 示 的 是 检验 一 个 流量 配 
午 方 案 是 否 可 行 的 用 例 代码 ， 一 般 会 将 这 种 检查 作为 最 大 流量 算法 的 最 后 一 步 。 


表 6.0.4 流量 网 络 中 的 边 的 API 


— 


public class FlowEdge 
FlowEdge(int v, int w, double cap) 





int from() 这 条 边 的 起 始 顶 点 
int toO 这 条 边 的 目的 顶点 
int other(int v) - 边 的 另 一 个 顶点 
double capacityO 边 的 容量 
double flowO 边 中 的 流量 
double residualCapacityToCint v) v 的 剩余 容量 
double addFlowToCint v, double delta) 将 v 的 流量 增加 de1ta 
“String toStringO) 对 象 的 字符 申 表 示 


表 6.0.5 流量 网 络 的 APT 
让 


public class FlowNetwork 
































































































































FlowNetworkCint V) 创建 一 个 含有 V 个 顶点 的 空 网 络 
FlowNetwork(In in) 从 输入 流 中 构造 流量 网 络 
int vO 顶点 总 数 
int EQ 边 的 总 数 
void addEdoe(FlowEdge e 向 流量 网 络 中 添加 边 e 
Iterable<FlowEdge> adj(Cint v) ”从 v 指 出 的 边 
Tterable<FlowEdge> edges() 流量 网 络 中 的 所 有 边 
String toStringO) 对 象 的 字符 串 表示 
tinyFN. txt Ee 指向 相同 FiowEdge 
~[ofzf3.of.o}--[ofi Tz.0 Ele 对 象 的 引用 
6 adj[] 
82E 0 ~Glsh.olo.o}[i 13 13.0l2.0} [oT1 la.0 2.0]] 
01 2.0 
1 
多 sl lof .oz2 TT.0l0.0}--[oT2 13.0f1.0] 
1 3 ~GB[sh:ofz.o [2 13h.ol0.0 -G13 fs.0f20 
24 1.0 
0 ~ fsB.ofi.o} [2 Tlrof oo 
4 5 3.0. 
~[s1sf.of.o 31s 2.0]2.5 县 和 六 


图 6.0.20 ”流量 网 络 的 表示 
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从 0 到 5 的 所 有 路 
径 中 都 含有 一 条 
饱和 的 边 


为 路 径 0 一 2 一 3 增 
加 1 个 单位 的 流量 





图 6.0.21 一 条 增 广 路 径 (0 
3 
1 二 4 一 9 


6.0.4.5 最 大 流 -最 小 切 分 "定理 






6.0.4.4 ”Ford-Fulkerson 算法 

在 1962 年 ，L.R.Ford 和 D.R.Fulkerson 发 明了 一 种 解决 最 大 流 
量 问题 的 有 效 方法 。 它 是 一 种 沿 着 由 起 点 到 终点 的 路 径 逐 步 增加 流 
量 的 通用 方法 ， 因 此 它 也 是 同类 算法 的 基础 。 在 经 典 文献 中 它 被 称 
为 Ford-Fulkerson 算法 ， 但 它 也 被 称 为 增 广 路 径 算法 。 考 虑 一 个 st- 


“ 流量 网 络 中 的 任意 一 条 从 起 点 到 终点 的 有 向 路 径 。 假 设 x 为 该 路 径 


上 的 所 有 边 中 未 使 用 容量 的 最 小 值 。 那 么 只 需 将 所 有 边 的 流量 增 大 x 
即 可 将 网 络 中 的 总 流量 至 少 增 大 x。 反 复 这 个 过 程 ， 就 得 到 了 第 一 种 
计算 网 络 中 的 流量 分 配方 法 : 找到 另 一 条 路 径 , 增 大 路 径 中 的 流量 ， 
如 此 反复 , 直到 所 有 从 起 点 到 终点 的 路 径 上 至 少 有 一 条 边 是 饱和 的 。 
(这 样 在 这 条 路 径 上 就 无 法 继续 增 大 流量 了 。 ) 这 种 方法 在 某 些 情 


” 况 下 能 够 计算 出 网 络 中 的 最 大 流量 ,但 在 有 些 情况 下 不 行 , 图 6.0.17 


就 是 这 类 情况 。 为 了 改进 算法 使 之 总 是 能 够 找到 最 大 流量 ， 就 要 用 
另 一 种 更 加 适用 的 方式 增 大 网 络 中 的 流量 ， 即 将 依据 变 为 网 络 所 对 
应 的 无 向 图 中 从 起 点 到 终点 的 路 径 。 在 这 样 的 路 径 中 ， 当 沿 着 路 径 
从 起 点 向 终点 前 进 时 , 经 过 某 条 边 时 的 方向 可 能 和 流量 的 方向 相同 ， 
那 这 条 边 即 为 正 向 边 ; 也 可 能 和 流量 的 方向 相反 ， 那 这 条 边 即 为 逆 
向 边 。 现 在 ， 对 于 任意 非 伯 和 正 向 边 和 非 空 逆向 边 ， 我 们 可 以 通过 
增加 正 向 边 的 流量 和 降低 逆向 边 的 流量 来 增加 网 络 中 的 总 流量 。 流 


量 的 增 量 受 路 径 上 的 所 有 正 向 边 的 未 使 用 容量 最 小 值 和 所 有 逆向 边 


的 流量 的 限制 。 这 样 的 一 条 路 径 被 称 为 增 广 路 径 ， 比 如 图 6.0.21。 
在 新 的 流量 配置 中 ， 路 径 中 至 少 有 一 条 正 向 边 达到 了 饱和 ， 或 是 至 


- 少 有 一 条 道 向 边 为 室 。 以 上 所 述 的 过 程 就 是 经 典 的 Ferd-Fulkerson 算 


法 ( 增 广 路 径 算法 ) 的 基础 。 我 们 将 它 总 结 如 下 。 


Ford-Fulkerson 最 大 流量 算法 。 网 络 中 的 初始 流量 为 零 ， 沿 着 
任意 从 起 点 到 终点 ( 且 不 含有 他 和 的 正 向 按 或 是 空间 向 边 ) 的 
增 广 路 径 增 大 流量 ， 直 到 网 络 中 不 存在 这 样 的 路 径 为 止 。 


令 人 惊讶 的 是 ( 在 关于 流量 性 质 的 一 定 技术 性 限制 之 下 ) ， 无 论 
我 们 如 何 选择 路 径 ， 该 方法 总 能 找 出 最 大 流量 。 如 同 43 节 中 讨论 的 仿 
心 最 小 生成 树 算法 和 4.4 节 中 讨论 的 通用 最 短路 径 算法 一 样 ， 它 的 意义 
在 于 证 明了 所 有 同类 算法 的 正确 性 。 我 们 可 以 用 任何 方法 选择 路 径 。 
人 们 发 明了 多 种 算法 来 计算 增 广 路 径 的 序列 ， 以 计算 最 大 流量 。 这 些 
算法 的 不 同 之 处 在 于 它们 得 到 的 增 广 路 径 数量 和 得 到 每 条 路 径 的 成 本 ， 
但 它们 实现 的 都 是 Ford-Fulkerson 算法 并 能 够 找到 网 络 的 最 大 流量 。 


为 了 证 明 Ford-Fulkerson 算法 的 任意 实现 所 计算 得 到 的 流量 确实 是 最 大 流量 ， 需 要 证 明 一 个 


人 也 有 时 译 为 “最 大 流 -最 小 害 ”。 一 一 编者 注 
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叫做 最 大 流 -最 小 切 分 的 关键 定理 。 理 解 这 个 定理 是 理解 所 有 网 络 流 算法 中 最 重要 的 一 步 。 顾 名 
思 义 , 定理 的 基础 是 网 络 中 的 流量 和 切 分 的 关系 , 因此 需要 先 定义 和 切 分 有 关 的 名 词 。 回 顾 4.3 节 ， 
图 的 切 分 是 将 所 有 项 点 分 为 两 个 不 相交 的 集合 ， 而 一 条 横 切 边 则 是 连接 分 别 存在 于 两 个 集合 中 的 
两 个 项 点 的 一 条 边 。 对 于 流量 网 络 ， 我 们 将 它们 的 定义 提炼 如 下 。 


定义 。st- 切 分 是 一 个 将 顶点 s 和 顶点 ! 分配 于 不 同 集合 中 的 切 分 。 


在 一 个 st- 切 分 中 ， 每 条 横 切 边 要 么 是 一 条 由 含有 
s 的 集合 指向 含有 / 的 集合 的 sf 边 ， 要 么 是 一 条 反方 向 
的 s- 边 。 有 时 我 们 将 st- 边 的 集合 称 为 一 个 切 分 集 。 在 
流量 网 络 中 ， 一 个 sr- 切 分 的 容量 为 该 切 分 的 st- 边 的 容 
量 之 和 ，sf- 切 分 的 路 切 分 流量 ( flow across ) 是 切 分 的 
所 有 st- 边 的 流量 之 和 与 所 有 1s- 边 的 流量 之 和 的 差 。 在 
网 络 中 删 去 st 切 分 的 所 有 sf- 边 ( 即 切 分 集 ) 将 会 切断 
所 有 从 * 到 ?的 路 径 。 而 重新 添加 其 中 的 任意 一 条 边 者 
会 得 到 一 条 从 * 到 7 的 路 径 。 切 分 能 够 抽象 许多 应 用 。 
比如 我 们 的 原油 流量 模型 ， 切 分 会 从 人 口 流向 出 口 的 原 外 
油 完全 切断 。 如 果 将 切 分 的 容量 看 作 这 么 做 的 成 本 ， 那 
么 切断 流量 的 最 有 效 方法 是 解决 以 下 问题 。 

最 小 st- 切 分 ， 给 定 一 个 sr- 网络， 找到 容量 最 小 的 sf- 切 分 。 简 单 起 见 ， 我 们 将 这 样 的 切 分 称 
为 最 小 切 分 ， 而 将 在 网 络 中 找到 它 的 问题 称 为 最 小 蕊 分 问题 。 

最 小 切 分 问题 的 定义 中 并 没有 提 到 流量 ， 而 且 这 些 定义 似乎 和 增 广 路 径 算法 无 关 。 从 表面 上 来 
看 ， 计 算 最 小 切 分 (得 到 一 组 边 ) 似乎 比 计算 最 大 流量 ( 为 所 有 的 边 赋 权 值 ) 更 容易 。 但 实际 上 ， 
最 大 流量 和 最 小 切 分 问题 是 紧密 相关 的 。 增 广 路 径 算法 本 身 就 是 证 明 。 流 量 和 切 分 的 以 下 基本 关系 
即 可 证 明 st- 流量 网 络 中 的 局 部 平衡 即 意味 着 整个 网 络 的 全 局 平衡 ( 推论 一 ) ， 并 且 可 以 得 到 任意 
st- 流量 值 的 上 界 (推论 二 ) 。 






流 人 量 和 流出 量 之 
-一 差 妈 为 跨 切 分 流量 


命题 E。 对 于 任意 st- 流量 网 络 ， 每 种 sf- 切 分 中 的 跨 切 分 流量 都 和 总 流量 的 值 相等 。 


证 明 。 设 C, 为 含有 顶点 的 集合 ，C, 为 含有 顶点 ! 的 集合 。 对 C, 使 用 归纳 法 : 当 C 仅 含 有 1 
时 该 命题 成 立 ， 若 将 一 个 顶点 由 C, 移动 到 C,， 则 该 结 点 处 的 局 部 平衡 意味 着 可 以 一 直 保持 该 性 
质 。 因 此 ， 通 过 移动 顶点 可 以 得 到 任意 st- 切 分 。 


推论 。s 的 流出 量 等 于 7 的 流入 量 ( 即 st- 流量 网 络 的 值 ) 。 
证 明 。 令 Cs 为 fs} 即 可 。 











推论 。st- 流量 网 络 的 值 不 可 能 超过 任意 sf 切 分 的 容量 。 893 
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命题 F〈 最 大 流量 -最 小 切 分 定理 ) 。 令 /为 一 个 st- 流量 网 络 ， 以 下 三 种 条 件 是 等 价 的 : 
i 存在 某 个 st- 切 分 ， 其 容量 和 /的 流量 相等 ; 
站 /达到 了 最 大 流量 ; 
道中 已 经 不 存在 任何 增 广 路 径 。 


证 明 。 根 据 命题 EB 的 推论 ， 我 们 可 以 由 条 件 i 得 到 条 件 下 。 因 为 增 广 路 径 的 存在 意 球 着 存在 某 
个 流量 更 大 的 网 络 配置 ， 这 与 了 的 最 大 性 相 冲突 ， 因 此 由 条 件 下 也 可 以 得 到 条 件 证 。 

但 还 需要 证 明 条 件 诞 和 条 件 i 等 价 。 令 C, 为 由 8 通过 所 有 不 含有 任何 他 和 正 向 边 或 空 递 向 边 的 
无 向 路 径 可 达 的 所 有 顶点 组 成 的 集合 , 令 C, 为 其 余 的 顶点 的 集合 st 必然 存在 于 Ci 中 , 因此 (CoC) 
为 一 个 st- 切 分 。 它 的 切 分 集 完全 由 饱和 正 向 边 和 空 逆向 边 组 成 。 该 切 分 的 跨 切 分 流量 和 它 的 容 
量 相等 ( 因为 所 有 正 向 边 都 是 饱和 的 ， 而 所 有 过 向 边 都 是 空 的 ) ， 即 等 于 网 络 中 的 总 流量 ( 由 
命题 E 可 得 ) 。 


推论 (完整 性 ) 。 当 所 有 容量 均 为 整数 时 ， 存 在 一 个 整数 值 的 最 大 流量 ， 而 Ford-Fulkerson 算 
法 能 够 找 出 这 个 最 大 值 。 


证 明 。 每 条 增 广 路 径 都 会 将 总 流量 增 大 某 个 正 整 数值 ( 正 向 边 中 未 使 用 容量 的 最 小 值 和 逆向 边 
的 容量 都 是 正 整数 ) 。 


即使 所 有 边 的 容量 均 为 整数 ， 我 们 也 可 以 设计 出 能 够 达到 最 大 流量 的 非 整数 配置 ， 但 这 里 不 

， 需 要 考虑 这 样 的 配置 。 从 理论 角度 来 说 ， 下 面 的 意见 是 很 重要 的 :我 们 已 经 演示 过 并 且 实 际 情况 
:也 需要 允许 容量 和 流量 可 以 为 实数 ， 但 它 会 导致 一 些 异常 情况 。 例 如 ， 已 知 Ford-Fulkerson 算法 
在 原则 上 可 能 得 到 无 穷 多 的 增 广 路 径 以 至 于 无 法 收敛 到 某 种 最 大 流量 的 配置 。 我 们 讨论 的 这 个 版 
” 本 总 是 可 以 收敛 的 ， 即 使 是 实数 值 的 容量 和 流量 也 不 例外 。 无 论 我 们 用 什么 方法 寻找 增 广 路 径 ， 
无 论 我 们 找到 了 什么 样 的 路 径 ， 最 后 总 是 能 够 得 到 一 种 不 存在 任何 增 广 路 径 的 流量 配置 ， 即 最 大 











894] ”流量 的 配置 。 
6.0.4.6 ”剩余 网 络 
通用 的 Ford-Fulkerson 算法 并 没有 指定 寻找 增 广 路 径 的 方法 。 如 何 才能 找到 不 含有 饱和 正 向 边 
和 空 道 向 边 的 路 径 呢 ? 为 此 ， 我 们 给 出 如 下 定义 。 





定义 。 给 定 某 个 st 流量 网 络 和 其 st- 流量 配置 ， 这 种 配置 下 的 剩余 网 络 中 的 顶点 和 原 网 络 相 同 。 

原 网 络 中 的 每 条 边 都 对 应 着 剩余 网 络 中 的 1 ~ 2 条 边 。 它 的 定义 如 下 : 对 于 原 网 络 中 的 每 条 从 

顶点 v 到 w 的 边 e， 令 大 表示 它 的 流量 、c. 表示 它 的 容量 。 如 果 大 为 正 ， 将 边 W 一 V 加 入 剩余 
一 “两 络 旧 容 量 为 大 如果 大 小 于 cc， 将 边 v 一 由 加 入 剩余 网 络 且 容量 为 cr。 


如 果 从 到 w 的 边 e 为 空 ( 即 上 为 0) ,剩余 网 络 中 就 只 有 一 条 容量 为 c. 的 边 v 一 w 与 之 对 应 ; 
如 果 该 边 饱 和 ( 即 太 等 于 c。 ) , 剩余 网 络 就 只 有 一 条 容量 为 /的 边 w 一 v 与 之 对 应 ; 如 果 它 既 不 为 空 ， 
也 不 饱和 ， 那 么 剩余 网 络 中 将 含有 相应 容量 的 v 一 w 和 w 一 v。 请 见 图 6.0.22。 
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流量 的 表示 剩余 网 络 
01 2.0 2.0 
3.0 1.0 逆向 边 
13 3:0 20 7 实际 流量 ) 
14 1.0 0.0 
23 1.0 0.0 
24 1.0 1.0 
35 2.0 2.0 号 
45 3.0 1.0 
cs <9 正 向 边 
(剩余 容量 ) 


图 6.0.22 ”网络 流 问题 详解 
乍 一 看 ， 剩 余 网 络 有 些 让 人 困惑 ， 因 为 与 流量 对 应 的 边 的 方向 却 和 流量 本 身 相反 。 正 向 边 表示 


的 是 剩余 的 容量 ( 即 如 果 选 择 从 这 条 边 通 行 所 能 增长 的 流量 ) ， 逆 向 边 表示 了 实际 流量 ( 即 如 果 选 
择 从 这 条 边 通行 将 会 减少 的 流量 ) 。 后 面 框 注 中 的 代码 给 出 了 在 FlowEdge 类 中 实现 剩 从 网络 这 种 
抽象 所 需 的 方法 。 通 过 这 些 实现 ， 虽 然 该 算法 处 理 的 是 剩余 网 络 ， 但 它 实际 上 是 在 检查 所 有 剩余 的 
容量 并 ( 通过 边 的 引用 ) 修正 流量 配置 。 


流量 网 络 中 的 边 〈 剩 余 网 络 ) 





public class FlowEdge 
站 


private final int vi // 边 的 起 点 
private final int w; // 边 的 终点 
private final double capacity; // 容量 
private double flow; // 流量 


public FlowEdge(int v, int w, double capacity) 
{ 


this.v = Vi 

this.w = w; 
this.capacity = capacity; 
this.flow = 0.0; 


public int from() { return v; } 
public int toO) { return w; 了 
public double capacity() { return capacity; } 
public double flowO) { return flow; } 


public int other(int vertex) 
// 同 Edge 类 


public double residualCapacityTo(int vertex) 
{ 


if (vertex == v) return flow; 
else if (vertex == w) return capacity- flow; 


else throw new RuntimeException("Inconsistent edge”"); 
} 
public void addResidualFlowTo(int vertex, double delta) 
{ 


if (vertex == v) flow -= delta; 
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else if Cr 一 由 flow += delta; 
else throw new RuntimeException("Inconsistent edge”); 


了 


public String tostring() 
{ .return String.formatC"%d->Xd %.2f %.2f", v, w, capacity, flow); } 





} 


这 里 的 FlowEdge 类 的 基础 是 4.4 节 中 对 加 权 边 的 DirectedEdge 类 的 实现 (请 见 4.4.2 节 框 注 “ 加 
396] 权 有 向 边 的 数据 类 型 ” ) ， 它 添加 了 一 个 实例 变量 flow 和 两 个 方法 来 实现 了 剩余 网 络 。 

















我 们 可 以 使 用 from() 和 other() 方法 处 理 两 个 方向 的 边 : e.other《v) 可 以 返回 e 的 两 个 
顶点 中 和 v 相对 的 另 一 个 顶点 。residualCapacityTo() 和 residua1F1owTof) 方法 实现 了 剩余 
网 络 。 剩 余 网 络 使 得 我 们 可 以 通过 图 中 的 搜索 算法 寻找 增 广 路 径 ， 这 是 因为 在 剩余 网 络 中 所 有 从 
起 点 到 终点 的 路 径 都 是 原 流量 网 络 中 的 一 条 增 广 路 径 。 沿 着 增 广 路 径 增 大 流量 意味 着 修改 剩余 网 
络 。 例 如 ， 至 少 有 一 条 路 径 上 的 边 变 得 饱和 或 变 为 空 ， 因 此 在 剩余 网 络 中 至 少 有 一 条 边 将 会 改变 
方向 或 者 消失 。( 我们 使 用 的 是 抽象 的 剩余 网 络 ; 因此 只 会 检查 正 容量 , 不 需要 实际 搬入 或 删除 边 。) 


private boolean hasAugmentingPath(FlowNetwork G, int s, int t) 
{ 
marked = new boolean[G.V(]; // 标记 路 径 已 知 的 顶点 
edgeTo = new FlowEdge[G.VO 〇 ]; // 路 径 上 的 最 后 一 条 边 
Queue<Integer> q = new Queue<Integer>(); 


marked[s] = true; // 标记 起 点 
q.enqueue(s); /1/ 并 将 它 入 到 
while (19q.isEmptyO) 

上 


int v = q.dequeueO; 
for (FlowEdge e : G.adj(v)) 
{ 
int w = e.other(v); 
if (e.residualCapacityTo(w) > 0 && Imarked[w]) 


{ // (在 币 余 网 络 中 ) 对 于 任意 一 条 连接 到 一 个 未 
p 被 标记 的 顶点 的 边 
edgeTo[w] = e; // 保存 路 径 上 的 最 后 一 条 边 
marked[w] = true;  // 标记 W， 因 为 政 径 现在 是 已 知 的 了 
q-enqueue(w); /1/ 将 它 入 列 
了 
} 
} 
return marked[t]; 


在 剩余 网 络 中 通过 广度 优先 搜索 寻找 增 广 路 径 


6.0.4.7 . 最短 增 广 路 径 算法 

对 Ford-Fulkerson 算法 最 简单 的 实现 可 能 就 是 最 短 增 广 路 径 算法 了 ( 最 短 指 的 是 路 径 长 度 最 小， 
而 非 流量 或 是 容量 ) 。JEdmonds 和 R.Katp 在 1972 年 发 明了 这 个 算法 。 这 里 ， 增 广 路 径 的 查找 等 
价 于 剩余 网 络 中 的 广度 优先 搜索 ( BFS ) ， 如 4.1 节 所 述 。 你 也 可 以 将 hasAugmentingPath() 
的 实现 与 广度 优先 搜索 实现 的 算法 4.2 比较 一 下 。 ( 剩余 网 络 是 有 向 图 ， 因 此 这 实际 上 是 一 个 
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有 向 图 处 理 算法 。 ) 这 个 方法 为 完整 实现 剩余 网 络 的 算法 6.14 打下 了 基础 ， 它 非常 简洁 。 为 了 
方便 , 我 们 将 这 个 方法 称 为 最 短 增 广 路 径 的 最 大 流量 算法 。 它 处 理 样 例 数据 的 详细 轨迹 如 图 6.0.23 
所 示 。 


算法 6.14 最短 增 广 路 径 的 Ford-Fulkerson 最 大 流量 算法 。 





public class FordFulkerson 
{ 
private boolean[] marked; 。 // 在 制 余 网 络 中 是 否 存在 从 5 到 V 的 路 径 ? 
private FlowEdge[] edgeTo;  // 从 s 到 Vv 的 最 短路 径 上 的 最 后 一 条 边 
private double value; // 当前 最 大 流量 
public FordFulkerson(FlowNetwork G，int s, int t) 
{。// 找 出 从 到 t 的 流量 网 络 G 的 最 大 流量 配置 
while (hasAugmentingPath(G, s, t)) 
{ // 利用 所 有 存在 的 增 广 路 径 
// 计算 当前 的 瓶颈 容量 
double bottle = Double.POSITIVE_INFINITY; 
for (int v = ti v != si v = edgeTo[v].other(v)) 
bottle = Math.min(bottle, edgeTo[v].residualCapacityTo(v)); 
// 增 大 流量 
for (int v = t; v != s; v = edgeTo[v] .other(v)) 
edgeTo[v] .addResidualFlowTo(v, bottle); 


value += bottle; 


} 


public double value() { return value; } 
public boolean inCut(int v) { return marked[v]; } 


public static void main(String[] args) 

{ 
FlowNetwork G = new FlowNetwork(new In(args[0])); 
ints=0,t=G.VO-1; 
FordFulkerson maxflow = new FordFulkerson(G, s, t); 


StdOut.printin("Max flow from "+ s+" to"+t); 
for (int v = 0; v < G.VO; v++) 
for (FlowEdge e : G.adj(v)) 
if ((v == e.from()) && e.flow() > 0) 
Stdout.println(” "+ e); 
Stdout .println("Max flow value = " + maxflow.value()); 


疾 


这 段 Ford-Fulkerson 算法 的 实现 会 在 剩余 网 络 中 寻找 最 短 增 广 路 径 ， 找 出 路 径 上 的 瓶颈 容量 并 增 大 
该 路 径 上 的 流量 ， 如 此 往复 直至 不 再 存在 从 起 点 到 终点 的 增 广 路 径 为 止 。 
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初始 的 空 流量 网 络 对 应 的 剩余 网 络 





沿 着 路 径 0_,1 .3.5 








增加 2 个 单位 的 流量 
% java FordFulkerson tinyFN.txt 
Max flow from 0 to 5 
0->2 3.0 2.0 
0->1 2.0 2.0 
1->4 1.0 1.0 
治 着 路 径 0-2_,4_5 33 0 1.0 
增加 1 个 单位 的 流量 2->4 1.0 1.0 
3->5 2.0 2.0 
4->5 3.0 2.0 
< Max flow value = 4.0 
的 沿 着 路 径 0-,2-3 一 1 一 4 一 5 
增加 1 个 单位 的 流量 








[5 引 ”图 6.0.23 最 短 增 广 路 径 的 FordFulkerson 算法 的 轨迹 
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图 6.0.24 一 个 较 大 的 流量 网 络 中 的 最 短 增 广 路 径 


站 
己 
径 
串 
Ea 
轴 


一 图 6.0.24 所 示 的 是 一 个 更 大 的 例子 。 从 图 中 我 们 可 以 清晰 地 看 到 , 增 广 路 径 的 长 度 在 慢 慢 变 长 。 
这 是 分 析 算法 性 能 的 第 一 个 要 点 。 


命题 G。 最 短 增 广 路 径 的 Ford-Fulkerson 最 大 流量 算法 在 处 理 含有 个 顶点 和 巨 条 边 的 流量 网 
络 时 找到 的 增 广 路 径 最 多 为 EV/2 条 。 


简略 证 明 。 每 条 增 广 路 径 中 都 含有 一 条 关键 边 一 “这 条 边 在 剩余 网 络 中 会 被 删 掉 ， 因 为 它 对 应 
的 可 能 是 一 条 将 会 被 充满 的 正 向 边 或 是 将 会 被 抽 干 的 逆向 边 。 每 当 一 条 边 成 为 关键 边 时 ， 通 过 
它 的 增 广 路 径 的 长 度 就 会 加 2( 请 见 练习 6.39) 。 因 为 增 广 路 径 的 最 大 长 度 为 已 目 每 条 边 最 多 








可 能 出 现在 V12 条 增 广 路 径 上 ， 因 此 增 广 路 径 的 总 数 最 多 为 EV12。 900] 
| 推论 。Ford-Fulkerson 算法 的 最 短 增 广 路 径 实现 所 需 的 时 间 在 最 坏 情况 下 为 VE3/2。 
证 明 。 广 度 优先 搜索 最 多 会 检查 已 条 边 。 





命题 G 所 述 的 上 界 是 非常 保守 的 。 例 如 ， 图 6.0.24 中 含有 11 个 顶点 和 20 条 边 , 该 上 界 说 明 算 
法 使 用 的 增 广 路 径 最 多 为 110 条 ， 但 实际 上 它 只 用 了 14 条 。 - 
6.0.4.9 其 他 实现 

Edmonds 和 Karp 发 明 的 另 一 种 Ford-Fulkerson 算法 的 实现 是 优先 处 理 能 够 将 流量 增 大 最 多 的 
增 广 路 径 。 简 单 起 见 ， 我 们 将 这 种 方法 称 为 最 大 容量 增 广 路 径 的 最 大 流量 算法 。 对 于 这 种 (以 及 其 
他 一 些 ) 方法 ， 可 以 通过 稍 加 修改 Dijkstra 的 最 短路 径 算法 、 由 优先 队列 得 到 剩余 容量 最 大 的 正 向 
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边 或 是 流量 最 大 的 逆向 边 来 实现 。 或 者 也 可 以 寻找 最 长 增 广 路 径 ， 或 是 随机 选择 增 广 路 径 。 要 完整 
分 析 哪 种 才 是 最 佳 的 方法 是 一 个 复杂 的 任务 ， 因 为 它们 的 运行 时 间 取 决 于 : 

口 找到 最 大 流量 所 需 检查 的 增 广 路 径 数 量 ; 

口 寻找 每 条 增 广 路 径 所 需 的 时 间 。 

这 些 量 的 变化 可 能 很 大 ， 和 流量 网 络 本 身 以 及 图 的 搜索 策略 有 关 。 人 们 还 发 明了 解决 最 大 流 
量 问题 的 其 他 几 种 算法 ， 其 中 一 些 在 实践 中 和 Ford-Fulkerson 算法 不 分 高 下 。 但 是 ， 为 最 大 流量 
算法 进行 数学 建 模 来 验证 这 些 狂想 是 一 个 非常 困难 的 问题 。 各 种 最 大 流量 算法 的 分 析 仍然 是 一 个 
有 趣 而 活跃 的 研究 领域 。 从 理论 角度 来 说 ,我们 已 经 得 到 了 各 种 最 大 流量 算法 在 最 坏 情况 下 的 上 
界 ， 但 这 些 上 界 大 多 远 远 高 于 实际 应 用 中 所 观察 到 的 真实 成 本 ， 而 且 也 比较 小 的 下 界 (线性 级 别 ) 
高 出 许多 。 最 大 流量 问题 的 已 知 成 本 和 潜在 成 本 之 间 的 差距 比 ( 目前 ) 本 书 中 讨论 过 的 任何 问题 
都 要 大 。 

最 大 流量 算法 的 实际 应 用 仍然 既是 一 门 艺术 也 是 一 门 科学 。 它 的 艺术 之 处 在 于 为 特定 的 应 用 场 
景 选择 最 有 效 的 策略 ; 它 的 科学 之 处 在 于 对 问题 本 质 的 理解 。 是 否 存在 能 够 在 线性 时 间 内 解决 最 大 
流量 问题 的 新 数据 结构 和 算法 呢 ? 或 者 我 们 能 否 证 明 它 们 不 存在 呢 ? 请 见 表 6.0.6。 


表 6.0.6 各 种 最 大 流量 算法 的 性 能 特点 
在 含有 V 个 顶点 和 EE 条 边 的 流量 网 络 中 (各 边 容量 最 大 为 C) ， 











自 法 算法 的 运行 时 间 在 最 坏 情况 下 的 增长 数量 级 
最 短 增 广 路 径 的 Ford-Fulkerson 算法 VE 
最 大 容量 的 Ford-Fulkerson 算法 FlogC 
预 流 推进 算法 ( preflow-push ) EMog(E/V) 
未 知 算法 ? V+E? 
6.0.5 ”问题 归 约 


本 书 中 ,我 们 一 直 注 重 说 明 某 个 特定 的 问题 ， 然 后 给 出 解决 问题 的 算法 和 数据 结构 。 在 许多 情 
况 下 (以 下 列 出 了 很 多 ) ， 我 们 发 现 如 果 能 够 将 某 个 问题 转化 为 已 经 解决 的 问题 的 某 个 形式 ， 那 么 
解决 它 将 会 更 容易 。 在 研究 已 经 学 习 过 的 各 种 算法 与 形形色色 的 各 种 问题 之 间 的 关系 之 前 ， 我 们 应 
该 正式 定义 这 个 解决 问题 的 过 程 。 


定义 。 如 果 能 够 用 解决 问题 B 的 算法 得 到 一 个 解决 问题 A 的 算法 ， 则 说 问题 A 能 够 被 归 约 为 
问题 B。 


这 个 概念 在 软件 开发 中 显然 并 不 陌生 : 当 你 使 用 一 个 库 方法 解决 某 个 问题 时 ， 正 是 在 将 所 需要 
解决 的 问题 归 约 为 该 库 方法 所 解决 的 问题 。 本 书 中 ， 我们 一 直 非 正式 地 将 能 够 归 约 为 给 定 问题 的 其 
他 问题 称 为 应 用 。 
6.0.5.1 排序 问题 

我 们 在 第 2 章 第 一 次 遇 到 了 问题 的 归 约 ， 当 时 我 们 想 说 明 的 是 高 效 的 排序 算法 可 以 用 于 解决 许 
多 看 起 来 与 排序 无 关 的 其 他 问题 。 例 如 ， 在 许多 有 趣 的 问题 中 ,我们 研究 了 以 下 几 个 问题 。 

口 寻找 中 位 数 。 给 定 一 组 数字 的 集合 ， 找 出 中 位 数 。 
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口 不 重复 的 值 。 在 给 定 的 集合 中 找 出 所 有 不 同 的 值 。 
口 最 小 平均 完成 时 间 的 调度 问题 。 给 定 一 组 任务 的 集合 和 它们 的 时 耗 ， 在 一 个 处 理 器 上 应 该 如 
何 安排 调度 使 得 它们 的 平均 完成 时 间 最 小 呢 ? 


命题 H。 以 下 问题 可 以 被 归 约 为 排序 问题 : 
口 寻找 中 位 数 : 
口 统计 不 同 的 值 ; 
口 最 小 平均 完成 时 间 的 调度 问题 。 


证 明 。 请 见 2.5.3.4 节 和 练习 2.5.12。 


我 们 还 需要 注意 归 约 的 成 本 。 例 如 ， 我 们 可 以 在 线性 时 间 内 找到 一 组 数 的 中 位 数 ， 但 是 如 果 归 
约 为 排序 问题 ， 那 就 需要 线性 对 数 级 别 的 时 间 , -即使 是 这 样 ， 额 外 的 成 本 或 许 还 是 可 以 接受 的 ， 因 
为 我 们 可 以 使 用 已 有 的 排序 实现 。 排 序 的 价值 在 于 以 下 3 个 方面 : 

口 它 有 其 自身 的 实用 性 ; 

口 我 们 的 算法 能 够 有 效 解决 排序 问题 ; 

口 许多 问题 都 能 够 归 约 为 排序 问题 。 

- 般 来 说 ,我 们 将 具有 这 些 性 质 的 问题 称 为 问题 解决 模型 。 和 成 熟 的 库 一 样 ， 设 计 良 好 的 问题 

解决 模型 能 够 大 大 扩展 我 们 能 够 处 理 的 问题 域 。 但 是 、 在 过 度 关注 于 问题 解决 模型 时 容易 犯 下 的 一 
个 错误 被 称 为 Maslow 的 狂 子 ， 这 是 由 A:Maslow 在 20 世纪 60 年 代 提出 并 广为人知 的 一 句 话 ， 如 
果 你 有 一 把 锤子 ， 那么 什么 东西 都 看 起 来 都 像 颗 钉子 。 如 果 沉迷 于 若干 问题 解决 模型 ， 我 们 就 可 能 
将 它们 当 作 Maslow 的 锤子 一 样 来 解决 遇 到 的 所 有 问题 ， 从 而 妨碍 了 发 现 解决 问题 的 更 好 方法 ， 甚 


至 是 新 的 问题 解决 模型 。 尽 管 本 书 所 讨论 的 模型 都 非常 重要 、 实 用 且 应 用 广泛 ， 但 是 考虑 各 种 其 他 


可 能 性 仍然 是 明智 的 选择 。 
6.0.5.2 最短 路径 问题 
在 44 节 当 a 有 科 让 在 许多 有 趣 的 问题 中 ,我 们 研究 了 以 下 几 个 。 
口 无 向 图 中 的 单 点 最 短路 径 问 题 。 给 定 一 幅 加 权 无 向 图 和 起 点 s, 其 中 所 有 权重 非 负 , 回答 “是 
否 存 在 从 s 到 给 定 目的 顶点 v 的 路 径 ? 如 果 有 ， 找 出 这 样 一 条 最 短路 径 (总 权重 最 小 ) 。” 
等 类 似 问题 。 
口 优先 级 限制 下 的 并 行 任务 调度 问题 多 给 定 一 组 需要 完成 的 任务 ， 以 及 一 组 关于 任务 完成 的 先 
后 次 序 的 优先 级 限制 。 在 满足 限制 条 件 的 前 提 下 应 该 如 何在 若干 相同 的 处 理 器 上 ( 数量 不 限 ) 
安排 任务 并 在 最 短 的 时 间 内 完成 所 有 任务 ? 
口 套 汇 。 在 给 定 的 汇率 表 中 找 出 一 个 套 汇 的 机 会 。 
和 刚才 一 样 ， 后 两 个 问题 看 起 来 和 最 短路 径 问 题 并 没有 直接 的 关系 ， 但 最 短路 径 算法 能 够 有 效 
地 解决 它们 。 这 些 示例 问题 虽然 都 很 重要 ,但 并 没有 什么 代表 性 。 许 多 非常 重要 的 问题 ( 太 多 了 ， 
无 法 一 一 讨论 ) 都 能 够 归 约 为 最 短路 径 问题 一 一 这 是 一 个 非常 有 效 而 重要 的 问题 解决 模型 。 
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” 6.0.5.3 ”最 大 流量 问题 - * 

SE 最 大 流量 问题 在 许多 情况 下 同样 非常 重要 - 我 们 可 以 去 掉 流 量 网 络 中 的 各 种 限 侧 并 解决 
相关 的 流量 问题 亿 可 以 用 它 姑 决 其 他 网 铬 右 者 轩 内 外 更 何 是 ， 甚至 是 非 网 络 问题 。 :例如 以 
“下 问题 。 

口 就 业 安置 。 大 学 里 的 就 业 指 导 中 心 会 为 学 生 安排 公司 面试- 这 些 面试 的 结果 是 一 系列 工作 机 
会 。 假 设 一 次 成 功 的 面试 表示 了 学 生 和 公司 之 间 的 相互 认可 且 学 生 将 会 接受 这 份 职位 ， 那么 
这 样 的 就 业 安置 数量 当然 是 越 多 越 好 。 A 最 多 可 能 安排 
一 多 少 份 工作 ? 

口 产品 配送 。 假 设 有 一 家 只 生产 一 种 产品 的 公司 ， 它 基 有 陛 够 生 产 产品 的 工厂， 能 够 暂时 储存 

:产品 的 物流 分 配 中 心 以 及 销售 商品 的 零售 直 营 店 。 公 司 需 要 定期 将 产品 通过 物流 分 配 中 心 分 - 
”发 到 各 地 的 直 营 店 ， 全 生 的 本 全 全 全 全 全 仆人 有 可 能 使 各 地 仓库 的 供应 量 与 
直 营 店 的 销售 量 相 匹配 吗 ? 

口 网 络 可 靠 性 。 一 种 简化 的 模型 可 以 将 一 个 计算 机 网 络 看 成 是 通过 交换 机 连接 所 有 电脑 的 一 组 
主干 网 ， 任意 两 台电 脑 者 能够 通过 交换 机 和 主干 线 相互 连接 。 切断 厅 济 计算 机 之 同 的 连 所 
-最 少 需 要 切断 多 少 条 主干 线 ? 

同样 ， 这 些 问题 各 不 相关 ， 也 看 起 来 不 属于 流量 网 络 的 问题 范畴 ， 但 它们 都 可 以 被 归 约 为 最 大 

[565 流量 问题 。 
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这 的 两 个 顶点 者 正好 分 别 属于 学 生 和 公司 两 个 集合 且 它们 在 景 大 流量 配置 中 都 会 是 他 和 的 。 首 
“ 先 ， 网 络 流 总 是 会 给 出 一 个 合法 的 匹配 : 因为 每 个 顶点 都 药 有 一 条 流入 边 (来 自 于 : 
条 流出 边 (指向 终点 ) 且 经 过 的 流量 最 多 为 1， 所 以 每 个 顶点 最 多 只 能 出 现在 一 个 匹配 中 。 其次， 
区 配 不 可 能 全 有 更 多 的 边 ， 因 为 任意 类 似 的 下 配 部 意味 着 一 个 比 最 大 流量 算法 的 结果 更 好 的 流 
量 配置 。 





二 分 图 匹配 问题 
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图 6.0.25 将 二 分 图 匹配 问题 归 约 为 网 络 流 问题 示例 906 





例如 ， 如 图 6.0.26 所 示 ， 一 个 增 广 路 径 最 大 流量 算法 可 能 会 使 用 路 径 s 一 1 一 7 一 t、s 一 
2 一 8 一 t、5 一 3 一 9 一 t、5 一 5 一 10 一 t、 5 一 6 一 11 一 t 和 5 一 4 一 7 一 1 一 8 一 2 一 12 一 t 
计算 得 到 匹配 1-8、2-12、3-9、4-7 和 6-11。 因 此 ， 在 示例 中 可 以 找到 一 种 将 所 有 学 生 和 工作 相 
匹配 的 方法 。 每 条 增 广 路 径 都 会 使 一 条 由 起 点 指出 的 边 和 一 条 指向 终点 的 边 充满 。 我 们 可 以 注意 到 ， 
这 些 边 都 不 是 逆向 边 ， 因 此 最 多 只 存在 条 增 广 路 径 ， 总 运行 时 间 与 VE 成 正比 。 

最 短路 径 和 最 大 流量 算法 都 是 重要 的 问题 解决 模型 ， 因 为 它们 和 排序 算法 有 着 相同 的 性 质 : 

口 它们 有 其 自身 的 实用 性 ; 

口 我 们 的 算法 能 够 有 效 解决 它们 ; 

口 许多 问题 都 能 够 归 约 为 这 些 模型 。 

这 上段 简短 的 讨论 只 是 为 了 介绍 这 个 概念 。 如 果 你 能 学 习 一 门 有 关 运 筹 学 的 课程 ， 就 将 会 学 到 许 
多 能 够 归 约 为 这 些 模型 的 其 他 问题 以 及 更 多 的 问题 解决 模型 。 
6.0.5.4 线性 规划 

运筹 学 的 基础 之 一 是 线性 规划 ( Linear Programming，LP ) ， 请 见 图 6.0.27。 它 的 主要 思想 是 
将 给 定 的 问题 归 约 为 以 下 数学 形式 。 

线性 规划 。 给 定 一 个 由 M 个 线性 不 等 式 组 成 的 集合 和 含有 个 决策 变量 的 线性 等 式 ， 以 及 一 
个 由 该 N 个 决策 变量 组 成 的 线性 目标 也 数 ， 找 出 能 够 使 目标 函数 的 值 最 大 化 的 一 组 变量 值 , 或 者 证 
明 不 存在 这 样 的 赋值 方案 。 
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图 6.0.26 ”二 分 图 匹 
配 中 的 增 
广 路 径 
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线性 规划 是 一 种 极为 重要 的 问 。 ”根据 约束 条 件 


是 解决 模型 ， 因 为: pr 
口 非常 多 的 重要 问题 都 能 够 归 o<ic3 
约 为 线性 规划 问题 ; 0<e<3 
口 我 们 的 算法 能 够 有 效 解决 线 ee 
性 规划 问题 。 0<J<1 
在 讨论 其 他 问题 解决 模型 时 0< 8 2 
的 “该 问题 有 其 自身 的 实用 性 ” A 
就 不 必 提 了 了， 因为 能 够 归 约 为 线 -By 
性 规划 问题 的 实际 问题 实在 是 太 cterg 
多 了 。 d+/=h 


图 6.0.27 线性 规划 问题 示例 


命题 K。 以 下 问题 均 可 归 约 为 线性 规划 问题 : 
口 最 大 流量 问题 ; 
口 最 短路 径 问题 ; 
口 许多 许多 其 他 问题 。 


例证 。 我 们 只 证 明 第 一 个 问题 并 将 第 二 个 贸 作 练习 6.49。 考 由 一 个 
由 不 等 式 和 等 式 所 组 成 的 系统 ， 共 中 每 一 个 约 东 变量 都 对 应 着 一 条 
边 ， 两 个 不 等 式 也 对 应 着 一 条 边 ， 每 一 个 竺 式 对 应 着 一 个 顶点 ( 起 
点 和 终点 除外 ) 。 约 东 变 量 的 值 新 是 边 中 的 流量 ， 不 等 式 指明 了 边 
中 的 流量 必须 在 0 和 边 的 容量 之 间 ， 而 等 式 说 明 指向 每 个 顶点 的 所 
有 这 中 的 流量 之 和 必须 和 从 该 顶点 指出 的 所 有 这 中 的 流量 之 和 相 竺 。 
任意 最 大 流量 问题 都 可 以 用 这 种 方式 归 约 为 一 个 线性 规划 问题 ， 而 
它 的 解 又 可 以 很 容易 地 归 约 为 最 大 流量 问题 的 解 。 图 6.0.28 给 出 了 
一 个 具体 的 示例 。 


命题 K 中 所 说 的 “许多 许多 其 他 问题 ”有 三 个 含义 。 第 一 ， 添 加 约 
束 条 件 和 扩展 线性 规划 模型 非常 简单 。 第 二 ， 问 题 的 归 约 是 有 传递 性 的 ， 
因此 能 够 归 约 为 最 短路 径 和 最 大 流量 问题 的 所 有 问题 也 能 够 归 约 为 线性 
规划 问题 。 第 三 ， 也 是 更 普遍 的 一 种 情况 ， 即 各 种 最 优化 问题 都 能 够 直 
接 构 造 为 线性 规划 问题 。 事 实 上 ， 线 性 规划 这 个 词 的 意思 就 是 “将 一 个 
最 优化 问题 构造 为 一 个 线性 规划 问题 ”。 这 种 用 法 出 现在 “programming” 
这 个 词 被 用 作 计算 机 领域 的 “编程 ”之 意 之 前 。 和 非常 多 的 问题 都 可 以 
归 约 为 线性 规划 问题 同样 重要 的 是 ， 解 决 线性 规划 问题 的 高 效 算法 已 经 
发 明了 数 十 年 了 。 其 中 最 著名 的 是 G.Dantzig 在 20 世纪 40 年 代 发 明 的 
单纯 形 法 (simplex algorithm ) 。 理 解 单纯 形 法 并 不 困难 ( 请 见 本 书 网 站 
上 对 它 的 简单 实现 ) 。 更 近 一 些 的 时 候 ，L.G.Khachian 在 1979 年 演示 了 
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椭 球 法 ( ellipsoid algorithm ) 并 推动 了 20 世纪 80 年 代 内 点 法 (interior point methods ) 的 发 展 。 对 
于 人 们 在 现代 应 用 中 遇 到 的 各 种 大 型 线性 规划 问题 ， 内 点 法 是 对 单纯 形 法 的 有 效 补充 。 现 在 ， 解 决 
线性 规划 问题 的 程序 都 已 经 十 分 健壮 、 久 经 考验 、 高 效 并 且 对 于 现代 公司 机 构 的 基本 运作 起 到 了 关 
键 的 作用 。 它 在 科学 领域 甚至 应 用 程序 中 的 运用 也 在 不 断 扩展 。 如 果 线性 规划 模型 能 够 表示 你 的 问 
题 ， 那 么 离 问 题 的 解决 也 就 不 远 了 。 


时 太 且 加 站 最 大 流量 问题 的 解 
6 ot 从 顶点 0 到 顶点 5 的 最 大 流量 配置 
8 0 一 23.02.0 
0 线性 规划 问题 的 构造 。 线性 规划 0 一 12020 
0 根据 约束 条 件 使 得 问题 的 解 1 一 41.01.0 
L448 xss+xss 最 大 化 1 一 33.01.0 
23 1.0 0<xo<2 xol=2 2 一 3101.0 
24 1.0 0<xo<3 xoz=2 2 一 41.01.0 
人 0<xn<3 xn=1 3 一 52.02.0 
1 0<xusl x14=1 4—53.02.0 
要 0<xn<! xa=1 最 大 流量 值 ，4.0 
0< ra4<1 x24=1 
0<x3s<2 235-2 


0< rss<3 rs=2 
XOITXI3* X14 
X02=X23t X24 
Xt Kas 
XI4* X24™ X45 





图 6.0.28 将 网 络 流 问题 归 约 为 线性 规划 问题 


非常 现实 地 说 ， 线 性 规划 是 各 种 问题 解决 模型 的 鼻祖 ， 因 为 非常 多 的 问题 都 能 向 它 归 约 。 很 自 
然 ， 这 一 点 也 使 我 们 不 禁 思考 是 否 存在 比 线性 规划 问题 更 强大 的 问题 解决 模型 。 还 有 哪些 问题 无 法 
归 约 为 线性 规划 问题 ?下 面 就 是 一 个 例子 。 

负载 均衡 。 给 定 一 组 任务 和 完成 它们 的 时 间 ， 应 该 如 何在 两 个 相同 的 处 理 器 上 分 配 任务 使 得 所 
有 任务 的 总 完成 时 间 最 短 ? 

我 们 能 够 找到 一 个 更 加 一 般 的 问题 解决 模型 并 高 效 解决 它 的 实例 吗 ? 这 样 的 思考 得 到 的 结果 是 ”1507 
不 可 解 性 ， 它 也 将 是 本 书 的 最 后 一 个 话题 。 909 


6.0.6 不 可 解 性 

本 书 中 讨论 的 算法 一 般 都 是 用 来 解决 实际 问题 的 ， 因 此 它们 消耗 的 资源 都 是 有 限 的 。 大 多 数 算 
法 的 实用 性 是 显而易见 的 ， 而 且 对 于 许多 问题 ,我们 还 很 幸运 地 能 够 在 几 种 不 同 的 算法 之 间 进 行 先 
择 。 但 不 幸 的 是 ， 现 实生 活 中 还 有 许多 其 他 问题 并 没有 如 此 有 效 的 解决 方法 。 更 糟糕 的 是 ， 对 于 许 
多 类 问题 ， 人 们 甚至 不 知道 是 否 存在 有 效 解决 它们 的 方法 。 这 种 情况 让 程序 员 和 算法 的 设计 者 都 极 
度 肖 表 ， 因 为 他 们 无 法 为 许多 实际 问题 找到 有 效 的 算法 。 对 于 理论 学 者 而 言 ， 肖 丧 来 自 于 他 们 无 法 
证 明 这 些 问题 到 底 有 多 难 。 在 这 个 领域 ， 人 们 已 经 进行 了 大 量 的 研究 ， 并 发 展 出 了 一 种 方法 来 判断 
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一 个 新 问题 从 技术 的 角度 来 说 是 否 能 够 归于 “难以 解决 ”这 个 类 别 。 尽 管 这 方面 的 研究 大 多 数 都 超 
出 了 本 书 的 范畴 ， 但 是 理解 它们 的 核心 思想 并 不 困难 。 我 们 将 在 这 里 介绍 它们 ， 因 为 当面 对 一 个 新 
问题 时 ， 每 个 程序 员 都 应 谈 了 解 不 存在 解决 它 的 高 效 算法 的 可 能 性 。 
6:0.6.1 准备 工作 
20 世纪 最 漂亮 和 有 趣 的 智力 发 明之 一 ， 就 是 阿兰 “图 灵 在 20 世纪 30 年 代 发 明 的 “图 灵机 ”。 
它 是 一 个 简单 而 又 非常 通用 的 计算 模型 ， 足 以 描述 任意 计算 机 程序 和 设备 。 一 台 图 灵机 就 是 一 台 能 
够 读 取 输入 、 变换 状态 和 打印 输出 的 有 限 状态 机 图 灵机 是 理论 计算 机 科学 的 基础 。 它 来 自 于 下 面 
两 个 重要 的 思想 。 
口 普遍 性 。 图 灵机 可 以 模拟 所 有 物理 可 实现 的 计算 设备 。 这 被 区 为 条 图 灵 论 题 。 这 是 一 个 
关于 自然 世界 的 论断 且 无 法 被 证 明 ( 但 可 以 被 证 伪 ) 。 该 论题 成 立 的 证 据 就 是 数学 家 和 计算 
机 科学 家 已 经 发 明 的 无 数 种 计算 模型 ， 而 它们 都 已 证 明和 图 灵机 等 价 。 
口 可 计算 性 。 图 灵机 (或 是 任意 其 他 计算 设备 ,根据 普遍 性 可 以 得 到 ) 无 法 解决 的 问题 是 存在 的 。 
这 在 数学 上 是 正确 的 。 停 机 问题 (halting problem ) ( 任意 程序 都 无 法 保证 能 够 判定 给 定 程 
序 是 否 会 结束 ) 就 是 这 类 问题 中 的 一 个 著名 的 例子 。 
在 这 里 ， 我 们 感 兴趣 的 是 第 三 个 思想 ， 它 是 关于 计算 设备 效率 的 。 
口 扩展 的 磋 奇 -图 灵 论 题 。 在 任意 计算 设备 上 解决 某 个 问题 的 某 个 程序 所 需 的 运行 时 间 的 增长 
数量 级 都 是 在 图 灵机 上 ( 或 是 任意 其 他 计算 设备 上 ) 解决 该 问题 的 某 个 程序 的 多 项 式 倍数 。 
同样 ， 这 也 是 一 个 关于 自然 世界 的 论断 ， 因 为 所 有 已 知 的 计算 设备 都 能 够 通过 图 灵机 模拟 ， 只 
是 成 本 最 多 需要 增加 一 个 多 项 式 的 倍数 。 在 最 近 几 年 ， 量 子 计算 的 概念 使 得 一 些 研究 者 开始 怀疑 扩 
展 的 丘 奇 - 图 灵 论 题 的 正确 性 。 大 多 数 人 都 认为 ， 从 实践 的 角度 来 说 ,这 个 论题 还 能 支撑 一 段 时 间 ， 
但 许多 学 者 已 经 在 努力 证 明 它 是 错误 的 。 
6.0.6.2 ”指数 级 别 的 运行 时 间 . 
不 可 解 性 理 沦 的 目的 在 于 将 能 名 区 别 多 项 式 时 间 内 解决 的 问题 和 在 最 二 情况 下 (可 能 ) 需要 指 
数 级 别 时 间 才 能 解决 的 问题 。 我 们 可 以 认为 指数 级 别 运 行 时 间 的 算法 在 输入 规模 为 N 时 所 需 的 时 间 
(至 少 ) 和 2 成 正比 ， 将 底数 2 替换 为 任意 的 a>1 均 可 。 我 们 一 般 认为 指数 时 间 的 算法 无 法 保证 
在 合理 的 时 间 内 解决 规模 超过 ( 例如 ) 100 的 问题 ， 因 为 无 论 计 算 机 有 多 快 都 没 人 能 够 等 待 一 个 需 
要 2" 步 的 算法 。 指 数 增长 级 别 使 得 科技 进步 忽略 不 计 : 一 台 超级 计算 机 可 能 比 一 张 算盘 快 一 万 亿 倍 ， 
但 两 者 都 不 可 能 解决 需要 2” 步 才能 完成 的 问题 。 有 时 ，“ 简 单 ” 问 题 和 “困难 ”问题 之 间 只 有 一 
线 之 差 。 例 如 ,4.1 节 中 学 习 的 那个 能 够 解决 以 下 问题 的 算法 。 
”最 短路 径 长 度 。 在 一 幅 图 中 从 一 个 给 定 的 顶点 s 到 另 一 个 给 定 的 项 点 之 间 的 最 短路 径 的 长 度 
是 多 少 ? 
但 并 没有 学 习 解决 下 面 这 个 问题 的 算法 ， 但 疝 者 看 起 来 本 质 上 似乎 是 一 样 的 。 
最 长 路 径 长 度 。 在 一 幅 图 中 从 一 个 给 定 的 顶点 s 到 另 一 个 给 定 的 顶点 + 之 间 的 最 长 路 径 的 长 度 
是 多 少 ? 
问题 的 核心 在 于 ， 据 我 们 目前 所 知 ， 从 难度 上 来 说 这 些 几乎 都 是 最 困难 的 问题 广度 优先 搜索 
能 够 在 线性 时 间 内 解决 第 一 个 问题 ,但 对 于 第 二 个 问题 所 有 已 知 算法 在 最 坏 情 况 下 均 需 要 指数 级 别 
的 时 间 。 前 面 框 注 的 代码 用 一 个 深度 优先 搜索 的 变种 解决 了 这 个 问题 。 它 和 深度 优先 搜索 非常 类 似 ， 
但 它 检查 了 有 向 图 中 所 有 从 s 到 t 的 简单 路 径 才 找到 了 最 长 的 那 一 条 。- 
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public class LongestPath 
{ 


private boolean[] marked; 
private int max; 


public LongestPath(Graph G, int s, int t) 
{ 
marked = new boolean[G.VO]; 
dfs(G, s, t, 0); 
了 
private void dfs(Graph G, int v, int t, int i) 
if (v == t && i > max) max = i; 
if (v == t) return; 
marked[v] = true; 
for (int w : G.adj(v)) 
if CImarked[w]) dfs(G, w, t, i+D); 
marked[v] = false; 


了 


public int maxLength() 
{ return max; } 


找 出 图 中 的 两 个 顶点 之 间 的 最 长 路 径 的 长 度 


6.0.6.3 ”搜索 问题 

本 书 中 已 经 介绍 过 的 “高 效 ” 算 法 能 够 解决 的 问题 与 还 需要 如 大 海 捞 针 一 - 般 在 各 种 可 能 性 中 寻 
找 解 法 的 问题 之 间 存 在 巨大 差异 ， 这 就 需要 能 够 用 一 steooaonniiigweoieuka 
… 系 。 第 一 步 就 是 要 说 明 我 们 所 研究 的 这 类 问题 。 


定义 。 如 果 一 个 问题 有 解 且 验 证 它 的 解 的 正确 性 所 需 的 时 间 不 会 超过 输入 规模 的 多 项 式 ， 则 称 
这 种 问题 为 搜索 问题 。 当 一 个 算法 给 出 了 一 个 解 或 是 已 证 明 解 不 存在 时 ， 忒 称 它 解 决 了 一 个 搜 
索 问 题 。 


我 们 将 在 后 面 讨论 不 可 解 性 问题 中 4 个 比较 有 趣 的 问题 。 这 些 问题 被 为 “可 满足 性 ”问题 。 现在， 
要 证 明 某 个 问题 是 一 个 搜索 问题 ， 只 需 说 明 你 能 够 快速 验证 某 个 完整 的 解 的 正确 性 即 可 。 解 决 -一个 搜 
索 问 是 就 好 像 “ 在 稻草 堆 里 寻找 一 根 针 ” 一 样 ， 你 唯一 的 优势 只 是 在 看 见 它 的 时 候 能 够 认得 出 来 。 例 
如 ， 对 于 后 面 列 出 的 每 个 可 满足 性 问题 都 给 定 了 一 组 变量 赋值 ， 你 都 能 很 容易 地 验证 每 个 等 式 或 不 等 
式 都 是 满足 的 ， 但 是 寻找 这 样 一 组 变量 赋值 就 完全 不 同 了 。 我 们 常用 NP 描述 所 有 搜索 问题 一 我 
们 会 在 6.0.6.5 节 说 明 这 个 名 字 的 由 来 。 


NP 是 所 有 搜索 问题 的 集合 。 





NP 准确 描述 了 所 有 科学 家 、 工程 师 以 及 应 用 程序 员 渴望 的 能 够 保证 在 合理 时 间 范 围 内 解决 的 
所 有 问题 的 集合 。 912 
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部 分 搜索 问题 。 
口 线性 等 式 可 满足 性 。 给 定 一 组 由 N 个 变量 表示 的 M 个 线性 等 式 ， 找 出 一 组 满足 所 有 等 式 的 
变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
口 线性 不 等 式 可 满足 性 ( 线性 规划 问题 的 搜索 形式 ) 。 给 定 一 组 由 N 个 变量 表示 的 M 个 线性 
不 等 式 ， 找 出 一 组 满足 所 有 不 等 式 的 变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
口 0 ~ 1 整数 线性 不 等 式 可 满足 性 (0 ~ 1 整数 线性 规划 问题 的 搜索 形式 ) 。 给 定 一 组 由 N 个 
整数 变量 表示 的 M 个 线性 不 等 式 ， 找 出 一 组 满足 所 有 不 等 式 的 变量 0 或 1 赋值 ， 或 者 证 明 
这 样 的 赋值 不 存在 。 
口 布尔 可 满足 性 。 给 定 一 组 由 N 个 布尔 变量 以 及 和 /或 运算 符 表示 的 M 个 等 式 ， 找 出 一 组 满 
足 所 有 等 式 的 变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
6.0.6.4 ”其 他 类 型 的 问题 
对 于 构成 了 不 可 解 性 研究 的 基础 的 问题 集合 ， 搜 索 问 题 的 概念 是 多 种 描述 它 的 方法 之 一 。 其 他 
方法 包括 决定 性 问题 ( 解 是 否 存在 ? ) 以 及 最 优化 问题 ( 最 优 解 是 什么 ? ) 。 例 如 ，6.0.6.2 节 中 的 
最 长 路 径 长 度 问 题 就 是 一 个 最 优化 问题 而 非 一 个 搜索 问题 。 ( 给 定 一 个 解 ， 无 法 验证 它 就 是 最 长 路 
径 的 长 度 。 ) 这 个 问题 的 搜索 版 本 是 找到 一 条 能 够 连接 所 有 项 点 的 简单 路 径 。 ( 该 问题 也 叫做 汉 密 
尔 顿 路 径 问题 ) 。 这 个 问题 的 决定 性 版 本 是 询问 是 否 存在 一 条 能 够 连接 所 有 顶点 的 简单 路 径 。 套 汇 
问题 、 布尔 可 满足 性 问题 和 汉密尔顿 路 径 问题 都 是 搜索 问题 ; 询问 这 些 问题 是 否 有 解 是 决定 性 问题 ; 
而 最 短 或 最 长 路 径 问 题 、 最 大 流量 问题 和 线性 规划 问题 都 是 最 优化 问题 。 虽 然 它 们 在 技术 上 并 不 等 
价 ， 但 搜索 问题 、 决 定性 问题 和 最 优化 问题 一 般 都 能 够 相互 归 约 ( 请 见 练习 6.58 和 练习 6.59 ) 且 我 
们 的 主要 结论 同时 适用 于 这 三 种 类 型 的 问题 。 
6.0.6.5 简单 的 搜索 问题 
NP 的 定义 并 没有 提 到 寻找 解 的 难度 ， 而 只 是 和 解 的 验证 有 关 。 构 成 不 可 解 性 研究 的 基础 的 第 
二 类 问题 的 集合 被 称 为 P， 它 和 寻找 解 的 难度 有 关 。 在 这 个 模型 下 ， 算 法 的 效率 是 将 输入 编码 所 需 
的 比特 数量 的 函数 。 


定义 。P 是 能 够 在 多 项 式 时 间 内 解决 的 所 有 搜索 问题 的 集合 。 


这 个 定义 暗示 着 多 项 式 时 间 是 一 个 最 坏 情况 下 的 时 间 界 限 。 对 于 在 集合 P 中 的 一 个 问题 ， 必 然 
存在 一 个 算法 能 够 保证 在 多 项 式 时 间 内 解决 它 。 注 意 ， 我 们 完全 没有 指定 这 是 一 个 怎样 的 多 项 式 。 
线性 、 线 性 对 数 、 平 方 、 立 方 级 别 都 是 多 项 式 时 间 ， 因 此 这 个 定义 显然 囊括 了 目前 已 经 学 习 的 所 有 
标准 算法 。 运 行 一 个 算法 所 需 的 时 间 取 决 于 所 使 用 的 计算 机 ， 但 扩展 的 丘 奇 - 图 灵 论题 让 这 一 点 变 
得 无 关 紧要 一 一 它 说 明 任意 计算 设备 上 的 多 项 式 时 间 的 解 都 意味 着 任意 其 他 计算 设备 上 也 存在 多 项 
式 时 间 的 解 。 排 序 问题 属于 P 是 因为 (例如 ) 插入 排序 所 需 的 时 间 与 Y 成 正比 (在 这 里 ,线性 对 
数 时 间 的 排序 算法 并 无 意义 ) ， 最 短路 径 问题 、 线 性 等 式 可 满足 性 问题 以 及 其 他 许多 问题 也 是 这 样 。 
一 个 能 够 有 效 解决 某 个 问题 的 算法 足以 证 明 该 问题 属于 集合 P。 换 句 话说 ，P 准确 描述 了 所 有 科学 
家 、 工 程 师 以 及 应 用 程序 员 能 够 保证 在 合理 的 时 间 范 围 内 解决 的 所 有 问题 的 集合 ， 请 见 表 6.0.7 和 
表 6.0.8。 
6.0.6.6” 非 确定 性 

NP 中 的 N 表示 的 是 非 确定 性 (nondeterminism ) 。 它 的 意思 是 ,扩展 计算 机 能 力 的 一 种 ( 理论 
上 的 ) 方 法 是 赋予 它 不 确定 性 : 即 断言 当 一 个 算法 面 对 若干 个 选项 时 , 它 有 能 力 “ 猜 出 ”正确 的 选择 。 
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在 我 们 的 讨论 中 ， 你 可 以 将 非 确定 性 的 计算 机 上 的 一 个 算法 看 作 是 在 “猜测 ”问题 的 解 ， 然 后 验证 
这 个 解 是 否 成 立 。 在 图 灵机 中 ， 非 确定 性 只 是 定义 为 一 个 给 定 状态 和 一 个 给 定 输入 时 的 两 个 不 同 的 
后 继 状态 ， 解 则 是 能 够 得 到 期 望 结果 的 所 有 路 径 。 非 确定 性 也 许 只 是 一 个 数学 上 的 幻想 ， 但 它 也 可 
以 是 一 种 很 有 用 的 思想 。 例 如 ， 在 5.4 节 中 ， 我 们 将 非 确定 性 用 作 了 一 种 设计 算法 的 工具 一 一 正则 
表达 式 模式 匹配 算法 的 基础 就 是 有 效 模拟 一 个 非 确定 性 自动 状态 机 。 


表 6.0.7 集合 NP 中 的 问题 举例 





间 大 输 入 描 述 存在 多 项 式 时 间 算法 实例 解 
© 人) 
找到 一 条 能 够 访问 所 Se 
汉密尔顿 申 从 图 G 区 [> < 人 | wm 
© ©) 
分 解 质 因数 整数 x 找到 x 的 最 大 因子 2 97605257271 8784561 
\ 由 N 个 0-1 变 ek pte el 
0-1 线 性 不 等 式 找 出 满足 所 有 不 等 式 2rz<2 
基 组 成 的 M 和 rl 
可 满足 性 不 下 全 的 变量 赋值 地 >2 2 
集合 P 中 的 所 有 
问题 请 见 表 6.0.7 





表 6.0.8 集合 P 中 的 问题 举例 








问 题 输 入 描述 存在 多 项 式 时 间 算 法 实例 
最 短 st- 路 后 ”图 G 找 出 从 * 到 :的 广度 优先 搜索 (BFS) 0-3 
顶点 s、 1 最 短路 径 
排序 数组 a 将 a 按 升 序 排列 归并 排序 2.8854113 3021 
线性 等 式 可 满 入 个 变量 找 出 满足 所 有 等 。 高 斯 消 元 法 xty=1.5 x=0.5 
足 性 4 个 等 式 式 的 变量 赋值 2x-y=0 =1 
线性 不 等 式 可 。 N 个 变量 找 出 满足 所 有 不 。 椭 球 法 xy<15 =2.0 
满足 性 MM 个 不 等 式 。 等 式 的 变量 赋值 2rz<0 15 


Xiy>3.5 2=4.0 


z=40 

一 -~ rz 
6.0.6.7 ”主要 问题 

非 确定 性 十 分 强大 ， 严 肃 认真 地 考虑 它 似乎 有 点 荒唐 。 为 什么 要 花心 思 用 一 种 想象 中 的 工具 将 
困难 的 问题 变 得 看 起 来 简单 呢 ? 答案 是 ， 虽 然 非 确定 性 看 起 来 十 分 强大 ， 但 没 人 能 够 证 明 它 能 够 帮 
助 我 们 解决 任何 问题 ! 换 句 话说 , 还 没有 人 能 够 找到 任何 一 个 问题 并 证 明 它 属于 NP 而 不 属于 P( 其 
至 证 明 存在 这 样 一 个 问题 ) 。 这 就 留 下 了 一 个 有 待 解决 的 问题 : 

P=NP 成 立 吗 ? 

这 个 问题 是 由 K.G6del 在 1950 年 写 给 von Neumann 的 一 封 著名 的 信 中 第 一 次 提出 的 ， 并 且 完 全 
难 倒 了 所 有 数学 家 和 计算 机 科学 家 。 陈 述 这 个 问题 的 其 他 方式 说 明 了 一 些 它 的 基本 性 质 。 

口 是 否 存在 任何 难以 解决 的 搜索 问题 ? 

口 如 果 能 构造 一 种 非 确定 性 的 计算 设备 ， 能 够 更 快 地 解决 某 些 搜索 问题 吗 ? 

无 法 解答 这 些 问题 令 人 们 极度 届 恼 , 因为 许多 重要 的 实际 问题 都 属于 NP 但 却 不 一 定 属于 P。( 已 








914| 
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知 的 最 快 确定 性 算法 需要 指数 级 别 的 时 间 。 ) 如 果 能 够 证 明 它 不 属于 P， 就 可 以 放弃 寻找 高 效率 的 
算法 。 既然 无 法 证 明 , 那么 就 存在 发 现 某 种 高 效 算法 的 可 能 性 。 事实 上 , 就 我 们 目前 的 知识 水 平 而 言 ， 
NP 中 的 每 个 问题 都 可 能 存在 某 种 高 效 的 算法 , 这 意味 着 可 能 还 有 许多 高 效 的 算法 没有 被 人 们 发 现 。 

但 实际 上 没 人 相信 P=NP， 而 且 很 大 一 部 分 人 都 在 努力 证 明 该 等 式 不 成 立 。 它 仍然 是 计算 机 科学 领 


域 有 待 证 明 的 最 重要 的 研究 课题 。 
6.0.6.8 “多项式 时 间 问 题 的 相互 归 约 


6.0.5 节 通 过 说 明 用 以 下 三 个 步骤 可 以 解决 问题 A 的 任意 实例 ， 证 明了 问题 A 是 可 以 妇 约 为 问 


题 B 的 : 
口 将 A 的 实例 归 约 为 B 的 实例 ; 
口 解决 B 的 实例 ; 


口 将 B 的 实例 的 解 归 约 为 A 的 实例 的 解 。 


布尔 可 满足 性 问题 


(rior morm) and 
(x1 orxs or 3) and 

(xfiorxs orx) and 

(xiorxsorn) 


0-1 整 数 线性 不 等 式 可 满足 性 问题 的 构造 


当 且 仅 当 第 一 个 

as 
CES 

cls(1 -A)+R+ 


qzl-x 


Qn 
@>1-x 
qn 
QSnt (+ 


9>1-5 
GS- +1-x+ (1-n) 


G1 
>1-3 
Gx3 
G<(1-x)+(1-x) + 


9。 当 目 仅 当 所 有 < 
“所 一 变量 的 值 均 为 1 
“< 时 5 的 值 为 1 
4 

scl+ea+a+q-3 


图 6.0.29 将 布尔 可 满足 性 问题 归 约 为 0-1 整 
数 线性 不 等 式 可 满足 性 问题 的 示例 





: 如 果 可 满足 性 问题 是 难以 解决 的 ， 那 么 整数 线性 规划 问题 也 是 难以 解决 的 。 


只 要 能 够 有 效 完成 归 约 ( 并 解决 问题 B) ,我 
们 就 能 有 效 的 解决 问题 A。 在 这 里 ， 为 了 效率 我 们 
采用 了 能 够 想象 的 最 弱 的 定义 : 为 了 解决 问题 A 最 
多 需要 解决 多 项 式 个 问题 B 的 实例 ， 且 问题 归 约 最 
多 只 需 多 项 式 时 间 。 在 这 种 情况 下 ,我们 称 A 能 够 
在 多 项 式 时 间 内 归 约 为 B。 在 前 文中 ， 我 们 使 用 问 
题 的 归 约 介绍 了 各 种 问题 解决 模型 ， 使 得 高 效 算法 
所 能 解决 的 问题 范围 大 大 拓展 了 。 现 在 ， 我 们 要 从 
另 一 个 角度 使 用 问题 的 归 约 ， 即 用 它 来 证 明 一 个 问 
题 是 难以 解决 的 。 如 果 一 个 问题 A 已 知 是 难以 解决 
的 ， 且 A 在 多 项 式 时 间 内 能 够 归 约 为 问题 B， 那 么 
问题 B 必然 也 是 难以 解决 的 。 和 否则， 问题 B 的 一 
个 多 项 式 时 间 的 解 必然 也 能 归 约 为 问题 A 的 一 个 多 
项 式 时 间 内 的 解 。 


命题 L。 布尔 可 满足 性 问题 能 够 在 多 项 式 时 间 
内 归 约 为 0-1 整数 线性 不 等 式 可 满足 性 问题 。 


证 明 .对 于 给 定 的 一 个 布尔 可 满足 性 问题 的 实例 ， 





布尔 可 满足 性 问题 的 解 。 
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即使 我 们 并 没有 精确 定义 难以 解决 ， 关 于 解决 这 两 种 问题 的 难度 关系 的 陈述 仍然 是 有 意义 的 。 
在 这 里 ，“ 难 以 解决 ”的 意思 是 “不 包含 在 集合 P 中 ”。 一般 来 说 ,我 们 用 不 可 解 来 表示 不 包含 在 
集合 P 中 的 问题 。 以 R.Karp 在 1972 年 作出 的 开创 性 的 工作 为 起 点 ， 一 些 研究 者 已 经 通过 这 种 归 约 
的 方式 证 明了 成 百 上 千 种 各 个 应 用 领域 的 问题 都 是 相关 的 。 此 外 , 这 种 关系 的 内 涵 远 比 两 个 单独 的 
问题 之 间 的 联系 更 丰富 ， 下 面 我 们 将 说 明 这 个 概念 。 
6.0.6.9 NP- 完全 性 

许多 问题 都 属于 NP 但 可 能 并 不 属于 P。 也 就 是 说 ， 我 们 可 以 轻易 地 验证 任意 给 定 的 解 是 否 有 效 ， 
但 即使 投入 了 许多 努力 ， 也 未 能 开发 出 一 个 有 效 的 算法 来 寻找 问题 的 解 。 令 人 惊讶 的 是 ， 所 有 这 些 ，|516| 
问题 都 有 一 个 额外 的 性 质 ,. 令 人 信服 地 说 明了 P#NP: 917 





定义 。 若 NP 中 的 所 有 问题 都 能 在 多 项 式 时 间 内 归 约 为 搜索 问题 A, 那么 则 称 问题 A 是 NP- 完 全 的 。 


这 个 定义 使 得 我 们 可 以 将 “难以 解决 ”的 定义 升级 为 “除非 P=NP 否则 无 解 ”。 如 果 任意 NP- 
完全 问题 能 够 通过 一 台 有 限 自动 机 在 多 项 式 时 间 内 解决 那么 NP 中 的 所 有 问题 都 将 得 到 解决 ( 即 
P=NP ) 。 也 就 是 说 ， 所 有 研究 者 对 于 寻找 这 些 问题 的 高 效 算法 的 失败 从 整体 上 来 说 是 证 明 P=NP 的 
失败 。NP- 完全 问题 的 意思 是 ， 我 们 不 期 望 能 够 找到 多 项 式 时 间 的 算法 。 大 多 数 实际 的 搜索 问题 都 
已 知 是 P 或 NP- 完全 问题 。 
6.0.6.10 “Cook-Levin 定理 

通过 归 约 ， 一 个 问题 的 NP- 完全 性 也 意味 着 另 一 个 问题 的 NP- 完全 人 性。 但 归 约 在 一 种 情况 下 是 
不 可 用 的 : 如 何 证 明 第 一 个 问题 是 NP- 完全 的 ? S.Cook 和 L.Levin 在 20 世纪 70 年 代 早期 分 别 独立 
地 完成 了 这 项 工作 。 


命题 M〈Cook-Levin 定理 ) 。 布 尔 可 满足 性 问题 是 NP- 完全 的 。 


极 大 简化 证 明 。 目 标 是 证 明 如 果 布尔 可 满足 性 问题 存在 多 项 式 时 间 的 算法 ， 那 么 NP 集合 中 的 
所 有 问题 都 能 在 多 项 式 时 间 内 解决 。 非 确定 型 图 灵机 是 可 以 解决 NP 中 的 任意 问题 的 ， 因 此 证 
明 的 第 一 步 是 用 与 布尔 可 满足 性 问题 中 一 样 的 逻辑 表达 式 描述 非 确定 型 图 灵机 的 所 有 特性 。 这 
可 以 将 NP 中 的 每 个 问题 ( 它们 都 可 以 表示 为 非 确定 型 图 灵机 上 的 一 个 程序 ) 和 可 满足 性 问题 
的 某 个 实例 ( 该 程序 的 运 辑 表 达 式 形式 ) 联系 起 来 。 这 样 ， 可 满足 性 问题 的 解 本 质 上 等 价 于 模 
拟 图 灵机 在 给 定 的 输入 下 运行 给 定 的 程序 ， 因 此 它 将 产生 给 定 问 题 的 某 个 实例 的 解 。 这 份 证 明 
的 其 他 细节 已 经 远 远 超出 了 本 书 的 范 恩 。 幸 运 的 是 ， 我 们 只 需要 证 明 这 一 个 命题 即 可 : 使 用 归 
约 来 证 明 NP- 完全 性 要 简单 的 多 。 


Cook-Levin 定理 ， 再 加 围绕 各 种 NP- 完全 问题 所 进行 的 成 千 上 万 次 多 项 式 时 间 内 的 归 约 ， 使 我 
们 得 到 了 两 种 可 能 性 : 或 者 P=NP， 即 不 存在 任何 不 可 解 的 搜索 问题 ( 所 有 搜索 问题 都 能 够 在 多 项 
式 时 间 内 得 到 解决 ) ; 或 者 P NP， 即 存在 不 可 解 的 搜索 问题 ( 某 些 搜索 问题 无 法 在 多 项 式 时 间 
内 得 到 解决 ) ， 请 见 图 6.0.30。NP- 完全 问题 在 实际 应 用 中 经 常 出 现 ， 因 此 人 们 找 出 解决 它们 的 优 
盘算 法 的 意愿 非常 强烈 。 所 有 这 些 问题 目前 都 还 未 找到 有 效 的 算法 显然 强烈 说 明了 P 关 NP， 大 多 
数 研究 者 也 相信 这 一 点 。 但 从 另 一 方面 来 说 ， 也 没 人 能 够 证 明 这 些 问题 中 的 任意 一 个 不 属于 P， 这 
也 同样 是 反方 向 的 一 个 有 力 证 据 。 无 论 P=NP 是 否 成 立 ， 目 前 的 实际 状态 是 所 有 NP- 完全 问题 的 已 
知 最 佳 算法 在 最 坏 情况 下 都 需要 指数 级 别 的 时 间 。 


604 w 第 6 章 背景 





| 
I919| 

















920| 








6.0.6.11 问题 的 分 类 。 P = NP 
要 证 明 一 个 搜索 问题 存在 于 集合 P 中， 我 们 需要 展示 一 个 解决 它 
的 多 项 式 时 间 算法 ， 这 或 许可 以 通过 将 它 归 约 为 一 个 已 知 P 类 问题 。 
要 证 明 NP 中 的 一 个 问题 是 NP- 完全 的 ， 我 们 需要 证 明 某 个 已 知 的 
NP- 完全 问题 能 够 在 多 项 式 时 间 内 归 约 为 它 : 也 就 是 说 ， 如 果 一 个 新 
问题 的 多 项 式 时 间 的 算法 能 够 用 于 解决 NP- 完全 问题 ， 那 么 它 也 就 能 Pp = NP 
解决 NP 中 的 所 有 问题 。 我 们 已 经 用 这 种 方法 证 明了 成 千 上 万 的 问题 NP 


都 是 NP- 完全 问题 ， 就 像 在 命题 中 对 整数 线性 规划 问题 进行 的 转 (+) 
换 那 样 。 后 面 列 出 了 一 些 有 代表 性 的 问题 ， 它 包含 了 Karp 提出 的 若 


干 问题 但 这 只 是 已 知 的 NP- 完全 问题 中 极 小 的 一 部 分 。 将 新 问题 归 
人 容易 解决 ( 属于 集合 P ) 或 者 难以 解决 (NP- 完全 ) 的 类 别 可 能 会 


出 现 以 下 几 种 情况 。 图 6.0.30 问题 集 的 两 种 
口 显而易见 。 例 如 ， 著 名 的 高 斯 消 元 法 就 能 够 证 明 线性 等 式 可 可 能 情况 
满足 性 问题 属于 集合 P。 
口 需要 一 些 技巧 但 并 不 因 蕉 。 例 如 ， 给 出 一 份 类 似 于 命题 上 的 证 明 需 要 一 些 经 验 和 实 路 ,但 
理解 并 不 困难 。 
口 非常 有 挑战 性 ; 例如 ， 线性 规划 问题 曾经 长 基 分 类 不 明 , 但 Rose 的 机 于 法 证 明了 线性 规 
划 问 题 属于 集合 P。 


口 有 待 解决 : 例如， -图 的 同 构 问题 (给 定 两 幅 图 ， 给 出 一 种 能 够 使 得 两 幅 图 相同 的 顶点 重 命名 
方案 ) 和 分 解 质 因数 问题 (给 定 一 个 整数 ， 找 出 它 的 最 大 因数 ) 仍然 是 无 解 的 
目前 这 仍然 是 一 块 内 容 丰 富 ; 研究 活跃 的 领域 ， 每 年 都 会 产生 数 千 篇 论文 。 从 后 面 项 目 列 出 的 
最 后 几 个 条 目 可 以 看 出 ,: 它 涉 及 了 科学 界 的 各 个 领域 。 我 们 在 NP 的 定义 中 包含 了 科学 家 、 工 程 师 
和 应 用 程序 员 所 渴望 解决 的 所 有 问 
一 些 著名 的 NP- 完全 问题 。 
口 布尔 可 满足 性 ;给 定 一 组 由 N 个 布尔 变量 表示 的 MM 个 等 式 ， 找 出 一 组 满足 所 有 等 式 的 变量 
赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
口 整数 线性 规划 。 给 定 一 组 由 N 个 整数 变量 表示 的 W 个 线性 不 等 式 ， 找 出 一 组 满足 所 有 不 等 
式 的 变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
口 负载 均衡 。 给 定 一 组 任务 和 完成 它们 的 时 间 以 及 一 个 时 间 上 限 7， 应 该 如 何在 两 个 相同 的 处 
理 器 上 分 配 任务 以 在 时 间 之 内 完成 所 有 任务 ? 
口 顶点 覆盖 。 给 定 一 幅 图 和 一 个 整数 C， 找 出 一 个 含有 C 个 顶点 的 集合 ， 保 证 图 中 的 每 条 边 
都 至 少 依附 于 集合 中 的 一 个 顶点 。 
口 汉 密 尔 顿 路径 。 给 定 一 幅 图 ， 找 出 一 条 正好 只 经 过 每 个 顶点 一 次 的 简单 路 径 ， 或 者 证 明 这 种 





路 径 不 存在 。 

口 蛋白 质 折 登 。 给 定 能 量 级 别 M， 找 出 一 种 蛋白 质 的 某 种 三 维 折 肥 结构 ， 其 含有 的 潜在 能 量 
小 于 M。 

口 伊 六 模型。 给 定 一 个 三 维 晶 格 伊 辛 模型 和 一 个 能 量 阔 值 E， 是 否 存在 一 个 自由 能 小 于 的 
子 图 ? 


口 给 定 收 益 的 风险 投资 组 合 。 给 定 组 风险 投资 渠道 与 -个 总 成 本 以 及 一 个 给 定 收益 。 每 项 投 
资 都 有 一 定 的 风险 值 , 风险 的 总 阅 值 为 M。 找 到 一 一 种 分 配 投 资 的 方法 使 得 总 风险 小 于 M。 
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6.0.6.12 处理 NP- 完全 性 

在 实践 中 ， 我 们 必须 为 这 些 各 种 各 样 的 问题 找到 某 种 解决 办 法 ， 因 此 人 们 对 解决 这 些 问题 非常 
感 兴趣 。 我 们 不 可 能 在 这 一 小 段 文字 中 说 明 这 个 庞大 的 研究 领域 ， 但 我 们 可 以 简要 描述 一 下 人 们 已 
经 尝试 过 的 各 种 手段 。 一 种 方法 是 , 修改 问题 并 寻找 一 种 “近似 ”算法 来 给 出 接近 但 并 非 最 佳 的 解 。 
例如 ， 欧 几 里 德 旅行 销售 员 问 题 ( traveling salesman problem ) ， 我 们 很 容易 找到 一 个 长 度 小 于 最 优 
路 线 的 两 倍 的 解 。 但 不 幸 的 是 ， 在 寻找 更 好 的 近似 时 ， 这 种 方法 并 不 足以 绕 开 NP- 完全 性 。 第 二 种 
方法 是 ， 给 出 一 种 能 够 有 效 解决 实际 应 用 中 所 出 现 的 问题 的 实例 算法 ， 但 对 于 最 坏 情况 下 的 输入 ， 
这 种 算法 仍然 是 无 法 找到 问题 的 解 。 这 种 方法 最 著名 的 例子 是 解决 整数 线性 规划 问题 的 程序 ， 它 们 
是 数 十 年 来 解决 无 数 工 业 应 用 中 的 大 量 最 优化 问题 的 主力 军 。 尽管 它们 有 可 能 需要 指数 级 别 的 时 间 ， 
但 实际 应 用 中 的 输入 数据 也 显然 不 是 最 坏 情况 下 的 输入 。 第 三 种 方法 是 ,使 用 一 种 叫做 “回溯 法 ” 
的 技术 来 避免 检查 所 有 可 能 的 解 ， 以 期 找到 尽 可 能 “高 效 ”的 指数 级 别 算法 。 最 后 ， 计 算 机 科学 的 
理论 并 没有 提 到 多 项 式 时 间 和 指数 时 间 之 间 的 一 个 相当 大 的 空 档 。 存 在 运行 时 间 与 New 以 及 2 成 
正比 的 算法 吗 ? 

NP- 完全 性 触及 了 本 书 中 我 们 所 研究 过 的 所 有 应 用 领域 : NP- 完全 问题 会 出 现在 初级 的 编程 问 
题 、 排 序 和 查找 、 图 处 理 、 字 符 串 处 理 、 科 学 计算 、 系 统 编程 、 运 筹 学 以 及 所 有 能够 想到 的 需要 计 
算 的 地 方 。NP- 完全 性 理论 对 实际 生产 最 重要 的 贡献 在 于 它 给 出 了 一 种 方法 来 鉴别 来 自 于 这 些 广泛 
领域 的 一 个 新 问题 是 “容易 ”还 是 “困难 ” 呢 。 如 果 有 人 找到 了 一 种 解决 新 问题 的 有 效 方法 ， 那 么 
它 显然 就 没什么 难度 了 。 如 果 找 不 到 ， 那 么 要 是 能 够 证 明 该 问题 是 NP- 完全 的 ， 这 就 说 明 找到 一 个 
高 效 算法 基本 上 是 不 可 能 的 。 ( 因此 或 许 应 该 尝试 另 一 种 思路 。 ) 本 书 中 已 经 研究 过 的 所 有 高 效 算 
法 说 明 我 们 已 经 学 习 了 自 欧 拉 以 来 的 多 种 高 效 的 计算 方法 ， 但 NP- 完全 性 理论 也 说 明 事 实 上 人 们 还 
有 很 长 的 路 要 走 。 [92 


图 练习 ， 磺 撞 模拟 


6.1 根据 正文 完成 predictCo11isionsC) 和 Particle 的 实现 。 决 定 一 对 刚性 球体 进行 弹性 碰撞 后 的 
运动 状态 需要 3 个 公式 : (a) 动量 守恒 ，(b) 动能 守恒 ，(e) 碰 擅 时 ， 相 互 作用 力 和 磁 挤 点 的 切面 垂直 
(假设 没有 摩擦 力 和 自 旋 ) 。 更 多 细节 请 见 本 书 的 网 站 。 

6.2 开发 一 个 版 本 的 Co11isionSystem、Particle 和 Event 类 ， 使 之 能 够 处 理 多 个 粒子 的 相互 碰撞 。 
在 模拟 台球 比赛 的 开 球 时 这 是 非常 重要 的 。 ( 这 道 习 题 很 难 ! ) 

6.3 开发 一 个 三 维 版 本 的 Co11isionSystem、Particle 和 Event 类 。 

6.4 尝试 将 大 片区 域 分 割 为 长 方形 的 小 格 ， 并 在 一 种 新 的 事件 类 型 中 仅 预 测 某 个 粒子 在 某 一 时 刻 和 相 邻 
的 9 个 方 格 中 的 所 有 粒子 的 碰撞 。 用 这 种 方法 改进 Co11isionSystem 的 simulate() 方法 的 性 能 。 
这 种 方法 减少 了 需要 计算 的 预测 碰撞 数量 ， 代 价 是 需要 监视 所 有 粒子 在 方 格 之 间 的 运动 。 

6.5 在 CollisionSystem 中 引入 粹 的 概念 并 用 它 验 证 ( 信息论 中 的 ) 经 典 结论 。 

6.6 布 表 运动 。1827 年 ， 植 物 学 家 罗伯特 布朗 在 用 显微镜 观察 到 浸 和 水 中 的 野生 花粉 颗粒 时 ， 发 现 它 
们 在 进行 无 规则 的 运动 。 这 种 运动 后 来 被 称 为 布朗 运动 。 人 们 讨论 了 这 种 现象 ， 但 没 人 能 够 给 出 令 
大 信服 的 解释 ， 直 到 爱 因 斯 坦 在 1905 年 在 数学 上 说 明了 这 个 问题 。 爱 因 斯 坦 的 解释 是 : 花粉 颗粒 
的 运动 是 由 无 数 微小 的 分 子 和 花粉 粒子 相 撞 造成 的 。 请 用 模拟 来 说 明 这 个 现象 - 

6.7 温度 。 为 Particle 类 添加 一 个 temperature() 方法 ， 返 回 粒子 的 质量 和 速度 的 平方 除 以 dks 的 商 
之 积 ， 其 中 空间 维 数 d=2，Bo1tzmann 常数 =1.3806503 x 10”。 系 统 的 温度 是 所 有 粒子 的 这 些 量 
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的 平均 值 。 为 Co11isionSystem 添加 一 个 temperature() 方法 ， 周 期 性 采集 温度 数据 并 绘 成 图 表 ， 
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检查 温度 是 否 恒定 。 








6.8 ”Maxwell-Boltzmann。 刚 性 球体 模型 中 的 所 有 粒子 的 速度 分 布 遵 循 Maxwell-Boltzmann 分 布 (假设 系 
统 已 经 被 加 热 且 粒子 的 质量 足以 忽略 量子 力学 效应 ) ， 在 二 维系 统 中 又 被 称 为 Rayleigh 分 布 。 分 布 
的 形状 取决 于 温度 。 编 写 一 个 方法 计算 粒子 速度 的 直方 图 并 在 各 种 温度 下 测试 它 。 

6.9 任意 形状 。 分 子 的 移动 速度 非常 快 (超过 喷气 式 飞 机 ) 但 扩散 却 很 慢 ， 因 为 它们 会 互相 碰撞 并 因此 
改变 方向 。 扩 展 模型 ， 将 两 个 容器 用 一 根 管道 相连 ， 容 器 中 分 别 含有 两 种 不 同类 型 的 粒子 。 模 拟 粒 
子 的 运动 并 以 时 间 的 函数 测量 每 个 容器 中 每 种 类 型 的 粒子 的 比例 。 

6.10 回填。 在 某 次 模拟 结束 后 ， 将 所 有 速度 变 为 相反 的 方向 并 继续 模拟 系统 中 的 运动 ， 它 应 该 能 够 问 
到 最 初 的 状态 ! 测量 系统 的 最 终 状态 和 初始 状态 的 差异 来 估计 四 会 五 入 造成 的 误差 。 

6.11 压强 。 为 Particle 类 添加 一 个 pressure() 方法 来 测量 大 量 粒子 和 墙 体 碰撞 造成 的 压强 。 系 统 的 
压强 为 所 有 粒子 的 冲击 力 之 和 。 为 Co11isionSystem 类 添加 一 个 pressureQ 方法 并 编写 一 个 用 
例 验证 等 式 pv=nRT。 

6.12 基于 索引 优先 队列 的 实现 。 开 发 一 个 版 本 的 Co11isionSystem， 使 用 索引 优先 队列 来 保证 优先 队 
列 的 长 度 最 多 与 粒子 数量 呈 线 性 关系 ( 而 非 平方 级 别 或 者 更 糟 ) 。 

6.13 ”优先 队列 的 性 能 。 使 用 优先 队列 ， 在 多 种 温度 下 测试 Pressure 类 来 定位 计算 的 瓶颈 。 如 果 可 以 ， 
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尝试 切换 到 另 一 种 不 同 的 优先 队列 实现 ， 在 高 温 下 获取 更 好 的 性 能 。 








图 练习: B- 树 


6.14 ”假设 在 一 棵 三 层 树 中 ， 总 共 可 以 在 内 存 中 保存 a 条 链接 。 每 个 页 中 可 以 保存 ~ 2b 条 指向 内 部 结 
点 的 链接 和 c ~ 2c 条 指向 外 部 结 点 中 的 链接 。 在 这 样 一 棵 树 中 最 多 可 以 含有 多 少 个 项 (作为 a、b、 
< 的 函数 ) ? 

6.15 开发 一 个 Page 的 实现 ， 将 B- 树 的 结 点 表示 为 一 个 BinarySearchST 类 的 对 象 。 

6.16 扩展 BTreeSET 来 实现 能 够 关联 键 和 值 的 BTreeST 类 ， 并 完整 支持 有 序 符号 表 API， 包 括 min() 、 
max()、floor()、ceiling()、deleteMin()、deleteMax() 、select() 、rank() 方法 以 及 接受 
两 个 参数 的 size() 和 get 0 方法 。 

6.17 编写 一 个 程序 ,使 用 StdDraw 将 B- 树 的 生长 过 程 可 视 化 ， 如 同 正文 描述 的 方式 一 样 。 

6.18 在 一 个 有 缓存 的 典型 系统 中 ， 估 计 对 B- 树 的 8 次 随机 查找 中 ， 每 次 查找 的 平均 探查 次 数 。 缓 存 可 
以 将 7 个 最 近 访问 的 页 保存 在 内 存 中 ( 因此 无 需 探查 ) 。 假 设 3 远大 于 7T。 

6.19 网 络 搜索 。 开 发 一 个 Page 类 的 实现 ,为 了 索引 网 页 ， 用 B- 树 的 结 点 表示 网 页 中 的 文本 。 用 一 个 
文件 表示 搜索 的 关键 字 。 从 标准 输入 接受 被 索引 的 网 页 。 为 了 控制 规模 ， 接 受命 令 行 参数 m 并 
将 内 部 结 点 的 数量 限制 在 10" 内 。 ( 在 使 用 较 大 的 m 前 请 联系 系统 管理 员 。) 使 用 一 个 m 位 的 
数字 来 表示 内 部 结 点 。 例 如 ， 当 m 为 4 时 ， 结 点 名 可 以 是 BTreeNode0000、BTreeNode0001、 
BTreeNode0002 等 。 在 页 中 保存 成 对 的 字符 串 。 向 API 中 添加 一 个 close() 操作 来 排序 并 写 人 数 
据 。 为 了 测试 实现 ， 尝 试 在 你 的 学 校 的 网 站 上 搜索 你 和 朋友 的 名 字 。 

6.20 B*- 树 。 在 B- 树 中 启发 式 地 分 裂 兄 弟 结 点 : 当 某 个 结 点 含有 M 个 条 目 并 需要 分 裂 时 ， 将 它 和 它 
的 一 个 兄弟 结 点 合并 。 如 果 该 兄弟 结 点 只 含有 上 个 条 目 且 k<M-1， 可 以 重新 分 配 并 使 得 两 者 都 只 
含有 (M+k)/2 个 条 目 。 否则 , 我 们 创建 一 个 新 结 点 并 使 3 个 结 点 中 都 只 含有 2M/3 个 条 目 。 同 时 ， 
我 们 允许 根 结 点 保存 4M/3 个 条 目 ， 并 在 它 饱 和 时 将 它 分 裂 并 创建 一 个 只 含有 两 个 条 目的 新 根 结 


6.21 编写 一 段 程序 ， 计 算 在 X 次 随机 插入 所 构造 的 一 棵 杂 阶 B- 树 中 外 部 页 的 平均 数量 。 用 合理 的 M 
和 值 运 行 你 的 程序 。 5 
6.22 ”如 果 你 的 系统 支持 虚拟 内 存 ， 设 计 并 用 实验 比较 B- 树 和 二 分 查找 在 一 张 庞大 的 符号 表 中 的 随机 查 
找 性 能 。 
6.23 ”对 于 你 为 练习 6.15 给 出 的 保存 在 内 存 中 的 Page 的 实现 ， 用 实验 确定 能 够 使 B- 树 在 -- 张 庞大 的 符 
号 表 中 的 使 随机 查找 操作 速度 最 快 的 M 值 。 特 别 注意 M 为 100 的 信 数 的 情况 。 
6.24 ”运行 实验 比较 保存 在 内 存 中 的 B- 树 ( 使 用 练习 6.23 中 确定 的 好 值 ) 、 线 性 探测 散 列 法 和 红 黑 树 
在 一 张 庞大 的 符号 表 中 的 随机 查找 用 时 。 
图 练习 : 后 绿 数 组 ps “ 
6.25 按照 图 6.0.15 的 样式 给 出 由 以 下 字符 串 的 后 级 、 后 纺 的 排序 、index() 和 1cpO 方法 的 返回 值 组 
成 的 表格 。 
a. abacadaba 
b. mississippi 
c. abcdefghij 
d. aaaaaaaaaa 
6.26 下面 这 段 代 码 用 于 计算 字符 串 的 所 有 后 级 ， 找 出 其 中 的 问题 。 
suffix = ""; 
for (int i = s.length() - 1; 1 >= 0; i--) 
suffix = s.charAt(i) + suffix; 
suffixes[i] = suffix; 
答 : 它 需 要 平方 级 别 的 时 间 和 空间 。 
6.27 有 些 应 用 需要 对 文本 进行 回环 变 位 ， 这 个 操作 会 涉及 文本 中 的 所 有 字符 。 对 于 0 到 入 -1 之 间 的 1， 
长 度 为 N 的 文本 的 第 i 次 回环 变 位 得 到 的 是 它 的 后 N-i 个 字符 和 前 i 个 字符 相连 所 得 的 字符 串 。 
下 面 这 段 代 码 用 于 计算 文本 的 所 有 回环 变 位 ， 找 出 其 中 的 问题 。 
int N = s.length(); 
for (int i = 0; i < N; i+#) 
rotation[i] = s.substring(i,. N) + s.substring(0, i); 
. 答 : 它 需 要 平方 级 别 的 时 间 和 空间 。 
6.28 设计 一 个 线性 时 间 的 算法 来 计算 给 定 文本 字符 串 的 所 有 回环 变 位 。 
答 : 
String t= s + si 
int N = s.length(); 
for Cint 1 = 0; i < N; i++) 
rotation[i] = r.substringCi, 1 + N); 
“6.29 “按照 1.4 节 中 的 假设 ,给 出 一 个 长 度 为 的 字符 串 SuffixArray 对 象 对 内 存 的 使 用 情况 。 
6.30 最 长 公共 于 字符 事 。 编 写 一 个 SuffixArray 的 用 例 LCS， 接 受 两 个 文件 名 作为 命令 行 参数 ， 读 取 
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点 。 找 出 在 含有 N 个 元 素 的 MM 阶 B*- 树 中 每 次 查找 或 插入 所 需 的 探查 数 的 上 下 界限 。 将 你 的 结 


果 和 了 B- 树 的 相应 上 下 界 ( 请 见 命题 B ) 进行 比较 。 实 现 B* 村 中 的 插入 操作 。 


这 两 个 文本 文件 并 在 线性 时 间 内 找 出 同时 出 现在 两 个 文件 中 的 最 长 子 字符 申 。( 在 1970 年 , DKnuth 
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6.34 


6.35 





927| 











猜测 这 是 不 可 能 的 。 ) 提示 : 为 字符 串 s#t 创建 后 缀 数组 ， 其 中 s 和 t 是 文本 字符 串 ， 而 # 是 一 
个 两 者 都 不 包含 的 字符 ) 。 

Burrow-Wheeler 变 搁 。Burrow-Whecler 变换 (BWT ) 是 一 种 用 于 数据 压缩 算法 中 的 变换 ， 包 括 
bzip2 和 高 吞 叶 量 的 基因 组 测序 等 。 编 写 一 个 SuffixArray 的 用 例 用 以 下 方法 在 线性 时 间 内 计 
算 BWT。 给 定 一 个 长 度 为 NN 的 字符 串 ( 以 一 个 文件 结束 符 $ 结尾， 它 小 于 其 他 任意 字符 ) 。 
使 用 一 个 NxN 的 矩阵， 其 中 每 一 行 均 为 原文 的 -一 个 不 同 的 回环 变 位 。 按照 字典 顺序 将 所 有 行 
排序 。Burrow-Wheeler 变换 就 是 排序 后 的 矩阵 中 最 右 侧 的 列 。 例 如 ，mississippi 的 BWT 
是 ipssm$pissii。Burrow-Wheeler 逆 变 换 是 BWT 的 逆序 。 例 如 ，ipssm$pissii 的 BWI 是 
mississippi$。 编 写 一 个 用 例 ， 在 线性 时 间 内 ， 为 某 个 字符 串 的 BWT 计算 它 的 BWI。 

环形 字符 事 的 线性 化 。 编 写 一 个 SuffixArray 的 用 例 ， 对 于 给 定 的 字符 串 ， 在 线性 时 间 内 找 出 它 
的 字典 序列 最 小 的 回环 变 位 。 这 个 问题 来 源 于 化 学 数据 库 中 的 各 种 环形 分 子 ， 每 一 种 分 子 都 表示 
为 一 个 环形 的 字符 串 。 人 们 需要 一 种 标准 的 表示 方法 ( 最 小 的 回环 变 位 ) 使 得 用 字符 串 的 任意 回 
环 变 位 作为 键 都 能 找到 该 分 子 。 ( 请 见 练习 6.27 和 练习 6.28。 ) 

重复 上 次 的 最 长 子 字符 事 。 编 写 一 个 SuffixArray 的 用 例 ， 对 于 给 定 的 字符 串 和 一 个 整数 k， 找 
出 其 中 被 至 少 重复 了 k 次 的 最 长 子 字符 中 = 

较 长 的 重复 字符 事 。 编 写 一 个 SuffixArray 的 用 例 ， 对 于 给 定 的 字符 串 和 一 个 整数 L， 找 出 长 度 
至 少 为 上 的 重复 子 字符 串 。 

kgram 频率 统计 。: 开发 并 实现 一 个 抽象 数据 类 型 ， 对 字符 囊 进行 预 处 理 以 支持 高 效 回答 如 下 形式 
的 问题 : “给 定 的 kgram 出 现 了 多 少 次 ?” 每 次 查询 在 最 坏 情况 下 所 需 的 时 间 应 该 与 HogN 成 正比 ， 
其 中 为 字符 串 的 长 度 。 


图 练习 :最 大 流 问 是 
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在 含有 上 个 顶点 和 已 条 边 的 任意 sf 流量 网 络 中 ， 如 果 所 有 边 的 容量 都 是 小 于 M 的 正 整 数 ， 可 能 
的 最 大 流量 值 是 多 少 ?为 存在 和 不 存在 平行 边 的 情况 分 别 给 出 答案 。 

如 果 原 流量 网 络 在 删 去 终点 时 将 变 成 一 棵 侍 ; 给 出 一 个 算法 解决 这 种 流量 网 络 中 的 最 大 流量 问题 。 
真 假 判断。 如 果 为 真 ， 给 出 简短 的 证 明 ; 如 果 为 假 ， 给 出 一 个 反例 。 

a 在 任意 最 大 流 配 置 中 均 不 存在 所 有 边 的 正 流 均 为 正 的 有 向 环 。 

b. 存 在 一 种 不 包含 所 有 边 的 流量 均 为 正 的 有 向 环 的 最 大 流 配置 。 

c_ 如 果 所 有 边 的 容量 均 不 同 ， 那 么 最 大 流量 配 多 是 唯一 的 

如果 所 有 边 的 容量 是 一 个 等 基数 列 ， 那 么 最 小 切 分 是 唯一 的 (remains unchanged ) 。 

e 如 果 所 有 边 的 容量 是 一 个 等 比 数列 ， 那 么 最 小 切 分 是 唯一 的 。 

完成 命题 G 的 证 明 。 说 明 为 何 每 当 一 条 边 成 为 关键 边 时 ， 经 过 它 的 增 广 路 径 的 长 度 必然 会 加 2。 
在 互联 网 上 找 出 一 个 大 型 网 络 ， 使 用 真实 数据 测试 最 大 流 算法 。 你 可 以 选择 交通 运输 网 络 (公路 、 
铁路 或 者 航空 ) 、 通 信 网 络 (电话 或 者 计算 机 网 络 ) 或 者 物流 配送 网 络 。 如 果 边 的 容量 不 明 ， 根 
据 一 个 合理 的 模型 自己 添加 这 些 数据 。 编 写 一 个 程序 使 用 我 们 学 过 的 接口 根据 你 的 数据 实现 流量 
网 络 的 配置 。 如 有 需要 ， 编 写 一 个 私有 方法 清理 数据 。 

编写 一 个 随机 网 络 生成 器 来 生成 稀疏 网 络 ， 其 中 边 的 容量 为 0 到 2” 之 间 的 整数 。 用 一 个 单独 的 类 
表示 容量 并 开发 机 种 实现 ， 一 种 生成 均匀 分 布 的 容量 值 ， 一 种 根据 高 斯 分 布 生成 容量 值 。 实 现 一 
个 用 例 ,对 于 二 组 精心 选 择 的 志和 巨 值 用 两 种 分 布 方法 生成 随机 网 络 ， 这 样 你 就 可 以 使 用 它们 进 
行 各 种 测试 了 。 
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图 练习 ， 问 题 的 归 约 与 不 可 解 性 
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编写 一 个 程序 ， 在 平面 上 随机 生成 了 个 点 。 构 造 流量 网 络 时 ， 对 于 每 个 点 都 将 它 和 距离 4 以 内 的 
所 有 点 相互 连接 ， 用 练习 6.42 中 的 随机 模型 设置 每 条 边 的 容量 。 

简单 的 归 约 。 编 写 FordFu1kerson 的 用 例 ， 在 以 下 类 型 的 流量 网 络 中 寻找 最 大 流 配 置 。 

口 管道 没有 方向 。 

口 起 点 和 终点 的 数量 不 限 ， 也 不 限制 指向 起 点 或 是 由 终点 指出 的 边 的 数量 。 

口 容量 有 下 限 。 

口 顶点 有 流量 限制 。 

产品 分 发 。 假 设 流量 表示 城市 之 间 用 卡车 运送 的 产品 ， 边 u-v 上 的 流量 表示 某 一 天 从 u 市 运送 到 
市 的 产品 数量 。 编 写 一 个 用 例 ,为 卡车 司机 打印 出 每 天 的 订单 ,告诉 他 们 应 该 去 哪个 城市 上 多 少 货 ， 
然后 去 哪个 城市 卸 多 少 货 。 假 设 卡车 司机 的 数量 无 限 多 且 对 于 任意 一 个 分 发 点 ， 所 有 货物 全 部 收 
到 了 之 后 才 会 开始 发 货 。 

就 业 安置 。 开 发 一 个 FordFu1kerson 的 用 例 ， 根 据 命题 中 的 归 约 解决 就 业 安置 问题 。 使 用 一 张 
符号 表 将 名 字 变 为 数字 并 用 于 流量 网 络 中 。 

构造 一 系列 的 二 分 图 匹配 问题 ， 其 中 任意 增 广 路 径 算法 解决 对 应 的 最 大 流 问题 所 使 用 的 所 有 增 广 
路 径 的 平均 长 度 与 E 成 正比 。 

中 连通 性 。 开 发 一 个 FordFu1kerson 的 用 例 ， 对 于 给 定 的 无 向 图 G 和 顶点 s 和 +， 找 出 在 G 中 使 
+ 和 s 不 连通 所 需 切 断 的 最 小 边 数 。 


不 同 的 路 径 。 开 发 一 个 FordFu1kerson 的 用 例 ， 对 于 给 定 的 无 向 图 G 和 顶点 * 和 1， 找 出 从 * 到 二 


最 多 有 多 少 条 任意 边 均 不 相同 的 路 径 。 


找到 37 703 491 的 最 大 因数 。 

证 明 最 短路 径 问 题 可 以 归 约 为 线性 规划 问题 。 

如 果 P 关 NP， 是 否 存在 能 够 在 New 时 间 内 解决 某 个 NP- 完全 问题 的 算法 ? 解释 你 的 回答 。 

假设 某 人 发 明了 一 种 保证 能 够 在 与 1.1* 成 正比 的 时 间 内 解决 布尔 可 满足 性 问题 的 算法 。 这 说 明 我 
们 能 够 在 与 1.1* 成 正比 的 时 间 内 解决 其 他 NP- 完全 问题 吗 ? 

一 个 能 够 在 与 1.1 成 正比 的 时 间 内 解决 整数 线性 规划 问题 的 程序 的 意义 是 什么 ? 

给 出 一 个 从 项 点 覆盖 问题 向 0-1 整数 线性 不 等 式 可 满足 性 问题 的 多 项 式 时 间 的 归 约 。 

使 用 无 向 图 中 的 汉密尔顿 路 径 问题 的 NP- 完全 性 证 明 在 有 向 图 中 寻找 汉密尔顿 路 径 的 问题 也 是 
NP- 完全 的 。 

假设 两 个 问题 都 已 知 是 NP- 完全 的 ， 这 说 明 能 够 在 多 项 式 时 间 内 将 两 者 相互 归 约 吗 ? 

假设 问题 X 是 NP- 完全 的 ,XX 能 够 在 多 项 式 时 间 内 归 约 为 问题 Y， 而 且 了 也 能 在 多 项 式 时 间 内 归 
约 为 X， 那么 7 一 定 是 NP- 完全 的 吗 ? 

答 : 不 ,因为 了 不 一 定 属于 NP。 

假设 我 们 有 一 个 能 够 解决 布尔 可 满足 性 问题 的 确定 性 版 本 的 算法 ， 这 说 明 存在 某 种 变量 赋值 能 够 
满足 所 有 的 布尔 表达 式 。 说 明 如 何 找到 这 种 赋值 方案 。 

假设 我 们 有 一 个 能 够 解决 项 点 覆盖 问题 的 确定 性 版 本 的 算法 ， 这 说 明 对 于 某 个 给 定 的 大 小 存在 顶 
点 覆盖 的 方案 。 说 明 如 何 解决 最 小 项 点 覆盖 问题 的 最 优化 版 本 。 
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6.61 


6.62 


6.60 解释 为 何 顶点 覆盖 问题 的 最 优化 版 本 不 一 定 是 一 个 搜索 问题 。 


答 : 因 人 ( 尽管 我 们 可 以 用 二 分 查找 在 这 个 问 
题 的 搜索 版 本 上 找到 最 优 解 。 


假设 问题 志和 问题 ee 且 克 能 够 在 多 项 式 时 间 内 归 约 为 Y。 我 们 可 以 得 到 以 下 哪些 


包 如 果 了 是 NP- 完全 的 ,那么 不 也是。 

b 如果 是 NP- 完全 的 ， 那 么 了 也 是 。 

避 如 果 龙 属于 P， 那 么 了 也 属于 Ps 

d. 如 果 了 属于 P， 那么 X 也 属于 P。 

假设 P 关 NP, 我 们 可 以 得 到 以 下 哪些 结论 。 

a 如果 问 是 六 是 NP- 完全 的 ， 那 么 无法 在 多 项 式 时 间 内 得 到 解决 

b. 如 果 问 题 X 属 于 NP， 那么 XX 无 法 在 多 项 式 时 间 内 得 到 解决 。 

c. 如 果 辣 题 X 忆 于 NP 但 并 不 是 NP- 完全 的 ， 那 么 天 可 以 在 多 项 式 时 间 内 得 到 解决 。 
d 如 果 问 题 大 属于 了 了， 那么 就 不 是 NP- 完全 的 。 


索 
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(索引 中 的 页 码 为 英文 原 书 的 页 码 ， 与 书 中 边栏 的 页 码 一 致 。 ) 


2-3-4 search tree ( 2-3-4 查找 树 ) ，441, 451 
2-3 search tree ( 2-3 查找 树 ) ，424-431 
2-nodes and 3-nodes ( 2- 节点 和 3- 节点 ) ，424 
analysis of ( 2-3 查找 树 分 析 ) ，429 
height (高 度 ) ，429 
insertion (搬入) ，425-427 
order (有 序 ) ，424 
perfect balance ( 完美 平衡 ) ，424 
and red-black BST ( 红 黑 二 叉 查 找 树 ) ，432 
search ( 查找 ) ，425 
2-3 tree. See 2-3 search tree (2-3 树 ， 见 2-3 查找 树 ) 
2-colorability problem ( 双色 问题 ) ，546 
2-dimensional array ( 二 维 数 组 ) ，19 
2-satisfiability problem ( 2- 可 满足 性 ) ，599 
2-sum problem ( 2-sum 问题 ) ，189 
3-collinear problem ( 三 点 共 线 问题 ) ，211 
3-sum problem ( 3-sum 问题 ) ，173, 190 
3-way partitioning ( 三 向 切 分 ) ，298 
3-way quicksort ( 三 向 快速 排序 ) ，298-301 
3-way string quicksort ( 三 向 字符 申 快速 排序 ) ，719-723 
8-puzzle problem (8 字谜 题 ) ，358 
32-bit architecture ( 32 位 架构 ) ，13, 201, 212 
64-bit architecture ( 64 位 架构 ) ，13, 201 


A 


Ar algorithm ( A* 算法 ) ，350 
Abstract data type (抽象 数据 类 型 ) ，64 
API, 65 
client (用 例 ) ，88-89 
design ( 数据 类 型 的 设计 ) ，96-97 
implementing an ( 实现 一 种 数据 类 型 ) ，84-87 
multiple implementations ( 实现 多 种 数据 类 型 ) ，90 
Abstract in-place merge (抽象 原 地 递归 ) ，270 
Accumulator data type ( 累加 器 数据 类 型 ) ，92-93 
Actual type ( 实际 类 型 ) ，134, 328 
Acyclic digraph. See Directed acyclic graph ( 无 环 有 向 图 
见 Directed acyclic graph ) 
Acyelic edge-weighted digraph、 ( 无 环 加 权 有 向 图 ) See 
Edge-weighted DAG ( 见 Edge-weighted DAG ) 
Acyclic graph ( 无 环 图 ) ，520, 547, 576 
Adjacency list ( 邻接 表 ) 





directed graph ( 有 向 图 ) ，568-569 
cdge-weighted digraph ( 加 权 有 向 图 ) ，644 
cdge-weighted graph ( 加 权 无 向 图 ) ，609 
undirected graph ( 无 向 图 ) ，524-525 
Adjacency matrix ( 邻接 矩阵 ) ，524, 527 
Adjacency set ( 邻接 集 ) ，527 
Adjacent vertex ( 邻接 顶点 ) ，519 
ADT See Abstract data type (ADT， 见 Abstract data type ) 
Algorithm (算法 ) 
century of ( 算法 的 世纪 ) ，853 
defined ( 定义 算法 ) ，4 
deterministic ( 可 判定 的 ) ，4 
nondeterministic ( 非 确定 性 的 ) ，914 
Tandomized (随机 的 ) ，198 
Aliasing 
ofarays ( 别名 ) ，19 
of objects (对 象 ) ，69 
ofsubstrings ( 子 数组 ) ，202 
All-pairs reachability ( 顶点 对 的 可 达 性 ) ，590 
All-pairs shortest paths ( 任意 项 点 对 之 间 的 最 短路 径 ) ， 
656 
Alphabet data type ( 字母 表 类 型 ) ，698-700 
Amortized analysis ( 均 捧 分 析 ) 
binary heap ( 二 又 堆 ) ，320 
defined ( 均 排 分 析 的 定义 ) ，198-199 
hash table ( 散 列表 ) ，475 
resizing array ( 可 调整 大 小 的 数组 ) ，199 
union-find ( union-find 算法 ) ，231, 237 
weighted quick-union with path compression ( 路 径 压缩 
的 加 权 quick-union 算法 ) ，231 
Analysis of algorithms ( 算法 分 析 ) ，172-215 

See also Propositions ( 男 见 命题 ); 

See also Properties ( 另 见 性 质 ) ; 
amortized analysis ( 均 捧 分 析 ) ，198-199 
big-Oh notation ( 大 O 记 法 ) ，206-207 
cost model ( 成 本 模型 ) ，182 
divide-and-conquer ( 分 治 思想 ) ，272 
doubling ratio ( 倍率) ，192-193 
doubling test ( 双 信 测试 ) ，176-177 
input models (输入 模型 ) ，197 
log-log plot ( 对 数 图 像 ) ，176 
mathematical models ( 数学 模型 ) ，178 

”memory usage ( 内 存 使 用 ) ，200-204 
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multiple parameters ( 多 个 参量 ) ，196 
observations ( 观察 ) ，173-175 
order-of-growth ( 增长 的 数量 级 ) ，179 


order-of-growth classifications ( 增长 数量 级 的 分 类 ) ,- 


186-188 

order-of-growth hypothesis (增长 数量 级 的 猪 想 ) 2 180 

problem size ( 问题 规模 ) ，173 

randomized algorithm ( 随机 化 算法 ) ，198 

scientific method ( 科学 方法 ) ，172 

tilde approximation ( 近似 ) ，178 

worst-case guarantee ( 对 最 坏 情况 下 的 性 能 保证 ) ， 197 
Antisymmetric relation ( 反对 称 性 ) ，247 
Apls 

Accumulator，93 

Alphabet ( 字母 表 ) ，698 

Bag, 121 

BinaryStdIn, 812 

BinaryStdOut, 812 

Buffer, 170. 

CC，543 

Counter，65 - 

Date，79 

Degrees，596 

Deque，167 

Digraph，568 

DirectedCycle, 576 

DirectedDFS, 570 

DirectedEdge, 64 

Draw, 83 

Edge, 60: 

EdgeWeightedDigraph, 641 

EdgeweightedGraph, 608 

FixedCapacityStack, 135 

FixedCapacityStackOfStrings，133 

FlowEdge, 890 

FlowNetwork, 890 

GeneralizedQueue, 169 

Graph, 522 . 

Graphproperties, 559 

In, 41,83 

IndexMaxPQ，320 

IndexMinPQ, 320 

IntervallD, 77 

Interval2D, 77 

java, lang,Double, 34 _ 

java. lang. Integer , 34 

java, lang.Math, 28 

java. lang.String, 80 
java.util.Arrays, 29 




















~ KMP, 769 ~ 

List, $11 

MathSET, 509 
Matrix, 60 

MaxPQ, 309 

MinpQ, 309 

MST, 613 

Out, 41,83 

Page, 870 

Particle, 860 
Paths，535 

Point2D, 77 

Queue, 121 
RandomBag, 167 
RandomQueue，168 
Rational, 117 
SCC，586 

Search, 528 

SET, 489 

SP，644, 677 

ST, 363, 366, 860, 870, 879 
Stack, 121 
StaticsETofInts, 99 
StdDraw, 43 

StdIn, 39 

StdOut, 37 
StdRandom, 30 
StdStats, 30 
Stopwatch, 175 

_ StringSET, 754 
StringST, 730 
SuffixArray, 879 
SymbolDigraph, S81 
SymbolGraph，548 
Topological, 578 
Transaction, 79 
TransitiveClosure, 592 
UF, 219 
VisualAccumulator, 95 


“Application programming interface. See also APls ( 应 用 程 


序 接口 ， 见 API) 
client ( 用例 ) ，28 
contract ( 契约 ) ，33 
data type definition ( 数据 类 型 定义 ) ，65 
implementation (实现) ,2: 
library of static methods ( 静态 方法 库 ) ，28 
Arbitrage detection ( 套 汇 检测 ) ，679-681 
Arithmetic expression evaluation ( 算术 表达 式 求 值 ) ， 
128-131 


Array (数组 ) ，18-21 
2-dimensional ( 二 维 数组 ) ，19 
aliasing (别名 ) ，19 
as object ( 数组 对 象 ) ，72 
bounds checking ( 边界 检查 ) ，19 
memory usage of ( 内 存 使 用 ) ，202 
of objects ( 数组 对 象 ) ，72 
ragged ( 参差 不 齐 ) ，19 
Array resizing. See Resizing array ( 调整 数组 大 小 ， 见 可 调 
整 大 小 的 数组 ) 
Arrays. sort(), 29, 306 
Articulation point ( 关节 点 ) ，562 
ASCII encoding ( ASCII 编码 ) ，696, 815 
Assertion ( 断言) ，107 
assert statement ( 断言 语句 ) ，107 
Assignment statement ( 赋值 语句 ) ，14 
Associative array ( 关联 数组 ) ，363 
Augmenting path ( 增 广 路 径 ) ，891 
Autoboxing ( 自动 装 箱 ) ，122, 214 
AVLtree (AVL 树 ) ，452 


Backtracking ( 回溯 法 ) ，921 
Bag data type ( 背包 数据 类 型 ) ，124, 154-156 
Balanced search tree ( 平衡 查找 树 ) ，424-457 
2-3 search tree ( 2-3 查找 树 ) ，424-431 
AVLtree (AVL 树 ) ，452 
B-tree ( B- 树 ) ，866-874 
red-black BST ( 红 黑 二 叉 查 找 树 ) ，432-447 
Base case ( 最 简单 的 情况 ) ，25 
Bellman-Ford ( Bellman-Ford 算法 ) ，671-678 
Bellman, R.，683 
Bentley, J. ,298, 306 
BFS, See Breadth-first search ( BFS， 见 Breadth-first search ) 
Biconnectivity ( 双向 连通 性 ) ，562 
Big-Oh notation (大 O 记 法 ) ，206-207 
Big-Omega notation ( 大 Omega 记 法 ) ，207 
Big-Theta notation ( 大 Theta 记 法 ) ，207 
Binary data ( 二 进 制 数据 ) ，811-815 
Binary dump (二进制 转 储 ) ，813-814 
Binary heap ( 二 又 堆 ) ，313-322 
amortized analysis of ( 二 叉 堆 的 均 挫 分 析 ) ，320 
analysis of ( 分析 二 叉 堆 ) ，319 
change priority ( 改变 优先 级 ) ，321 
definition ( 二 又 堆 的 定义 ) ，314 
deletion ( 删除) ，321 
heapsort ( 堆 排序 ) ，323-327 
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insertion ( 插入 元 素 ) ，317 
Temove the maximum ( 删除 最 大 元 素 ) ，317 
remove the minimum ( 删除 最 小 元 素 ) ，321 
representation ( 二 又 堆 表示 法 ) ，313 
sink and swim ( 下 沉 和 上 浮 ) ，315-316 
Binary logarithm function ( 以 2 为 底 的 对 数 函数 ) ，185 
Binary search ( 二 分 查找 ) ，8 
analysis of ( 二 分 查找 的 分 析 ) ，383, 391 
bitonic search ( 双 调查 找 ) ，210 
for a fraction ( 分 数 的 二 分 查找 ) ，211 
in asorted array ( 在 有 序数 组 中 进行 二 分 查找 ) ， 
46-47, 98-99 
local minimum ( 数组 的 局 部 最 小 元 素 ) ，210 
symbol table (数组 符号 表 ) ，378-384 
Binary search tree ( 二 叉 查找 树 ) ，396-423 
analysis of ( 二 叉 查 找 树 的 分 析 ) ，403 
anatomy of ( 详解 二 丸 查 找 树 ) ，396 
AVLtree (AVL 树 ) ，452 
certification (认证 ) ，419 
definition ( 二 叉 查 找 树 的 定义 ) ，396 
delete the min/max ( 删除 最 大 键 和 删除 最 小 键 ) ，408 
floor and ceiling ( 向 上 取 整 和 向 下 取 整 函数 ) ，406 
height ( 树 的 高 度 ) ，412 
Hibbard deletion ( Hibbard 删除 方法 ) ，410, 422 
insertion ( 插入 ) ，400-401 
minimum and maximum ( 最 大 键 和 最 小 键 ) ，406 
nonrecursive ( 非 递归 ) ，417 
perfectly balanced ( 完美 平衡 的 ) ，403 
Tange query ( 范围 查找 ) ，412 
rank and select ( 排名 和 选择 ) ，415 
recursion ( 递归) ，415 
representation ( 数据 表示 ) ，397 
rotation (旋转 ) ，433-434 
search (查找 ) ，397-401 
selection and rank ( 选择 和 排名 ) ，406, 408 
symmetric order ( 二 叉 树 的 对 称 性 ) ，410 
threading ( 线性 符号 表 ) ，420 
BinaryStdIn library (BinaryStdIn 库 ) ，811-815 
BinaryStdOut library (BinaryStdOut 库 ) ，811-815 
Binary tree ( 二叉树 ) 
anatomy of ( 详解 二 叉 树 ) ，396 
binary heap ( 二 又 堆 ) ，313 
complete ( 实现) ，313, 314 
external path length ( 外 部 路 径 总 长 度 ) ，418 
heap-ordered ( 堆 有 序 )，313 
height (完全 二 叉 树 的 高 度 ) ，314 
inorder traversal ( 中 序 遍 历 ) ，412 
internal path length ( 内 部 路 径 长 度 ) ，412 
level-order traversal ( 按 层 遍 历 ) ，420 
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preorder traversal ( 前 序 遍 历 ) ，834 

weighted extemal path length ( 加 权 外 部 路 径 长 度 ) ，832 
Binomial coefficient ( 二 项 式 系数 ) ，185 
Binomial distribution ( 二 项 分 布 ) ，59, 466 
Binomial tree ( 二 项 树 ) ，237 
artite graph ( 二 分 图 ) ，521, 546-547 
Birthday problem ( 生日 问题 ) ，215 
Bitmap (位 图 ) ，822 
Bitonic array ( 双 调 数组 ) ，210 
Bitonic search ( 双 调 查找 ) ，210 
Bitonic shortest paths ( 双 调 最 短路 径 ) ，689 
Blacklist filter ( 黑 名 单 过 滤 ) ，491 
Boemer's theorem ( Boerner 定理 ) ，357 
boolean primitive data type ( 布尔 型 原始 数据 类 型 ) ，12 
Boolean satisfiability ( 布尔 可 满足 性 ) ， 913, 920 
Boruvka, 0.，628 
Boruvka's algorithm ( Boruvka 算法 ) ，629, 636 
Bottleneck shortest paths ( 瓶颈 最 短路 径 ) ，690 
Bottom-up 2-3-4 tree ( 自 底 向 上 的 2-3-4 树 ) ，451 
Bottom-up mergesort ( 自 底 向 上 的 合并 排序 )，277 
Boyer-Moore ( Boyer-Moore 算法 ) ，770-773 
Boyer, R. S., 759 
Breadth-first search ( 广度 优先 搜索 ) 

in adigraph ( 在 有 向 图 中 ) ，573 

ina graph ( 在 图 中 ) ，538-542 
break statement ( break 语句 ) ，15 
Bridge in a graph ( 连通 图 中 的 桥 ) ，562 
B-tree ( B- 树 ) ，448, 866-874 

analysis of ( B- 树 分 析 ) ，871 

insertion ( 插 人 ) ，868 

perfect balance ( 完美 平衡 ) ，868 

search (搜索 ) ，868 
Buffer data type ( 缓冲 区 数据 类 型 ) ，170 
Byte (8 bits) ( 字 节 (1 字 节 等 于 8 比特 ) ) ，200 
byte primitive data type ( byte 原 书 数据 类 型 ) ，13 








Cache ( 缓存 ) ，195, 307, 327, 343, 394, 419, 423 
Call a method ( 调用 方法 ) ，22 
Callback ( 回调 ) ，339. See also Interface ( 另 见 接口 ) 
Cast (类 型 转换 ) ，13, 328, 346 
Catenable queue ( 可 连接 的 队列 ) ，171 
Ceiling function (向 上 取 整 函数 ) 
binary search tree ( 二 叉 查 找 树 ) ，406 
mathematical function ( 数学 函数 ) ，185 
ordered array ( 有 序数 组 ) ，380 
symbol table ( 符号 表 ) ，367 


Cell-probe model ( cell-probe 模型 ) ，234 
Center of a graph ( 图 的 中 点 ) ，559 
Certification ( 认证 ) 
binary heap ( 二 叉 堆 ) ，330 
binary search ( 二 分 查找 ) ，392 
binary search tree ( 二 又 查找 树 ) ，419 
minimum spanning tree ( 最 小 生成 树 ) ，634 
NP complexity class ( NP 复杂 性 类 ) ，912. 
red-black BST ( 红 黑 二 又 查找 树 ) ，452 
search problem ( 搜索 问题 ) ，912 
shortest paths ( 最 短路 径 ) ，651 
sorting ( 排序) ，246, 265 
char primitive data type ( char 原始 数据 类 型 ) ，12, 696 
Chazelle, B., 629, 853 
Chebyshev's inequality ( Chebyshev 不 等 式 ) ，303 
Church-Turing thesis ( 丘 奇 - 图 灵 论 题 ) ，910 
Cireular linked list ( 环形 链表 ) ，165 
Circular queue ( 环形 队列 ) ，169 
Cireular rotation ( 回环 变 位 ) ，114 
Classpath (类 路 径 ) ，66 
Client (用 例 ) ，28 
Closest pair ( 最 接近 的 一 对 ) ，210 
Collections (集合 ) ，120 
bag ( 背包) ，124-125 
catenable ( 可 连接 的 ) ，171 
deque (出 列 ) ，167 
generalized queue ( 一 般 队列 ) ，169 
priority queue ( 优先 队列 ) ，308-334 
pushdown stack (下 压 栈 ) ，127 
queue (队列) ，126 
random bag ( 随机 背包 ) ，167 
random queue ( 随机 队列 ) ，168 
ring buffer ( 环形 缓冲 区 ) ，169 
stack ( 栈 ) ，127 
steque，167 
symbol table ( 符号 表 ) ，360-513 
trie (单词 查找 树 ) ，730-757 
Collision resolution ( 处 理 磁 撞 冲突 ) ，458 
Combinatorial search ( 组 合 搜索 ) ，350 
Command-line argument ( 命令 行 参 数 ) ，36 
Command-line interface ( 命令 行 接口 ) 
command-line argument ( 命令 行 参数 ) ，36 
compile a Java program ( 编译 Java 程序 ) ，10 
piping (管道 ) ，40 
redirection ( 重 定向 ) ，40 
run a Java program ( 运行 Java 程序 ) ，10 
standard input ( 标准 输入 ) ，39 
standard output ( 标准 输出 ) ，37-38 
terminal window (终端 窗口 ) ，36 


-Comma-separated-valuc ( 逗号 分 隔 的 值 ) ，493 
Comparable interface ( Comparable 接口 ) 
compareTo() method ( compareToO 方法 ) ，246-247- 
“Date, 247 
natural order ( 自然 排序 ) ，337 
sorting (排序 ) ，244, 246-247 
String，353 
symbol table (符号 表 ) ，368-369 
Transaction, 266 
Comparator interface ( Comparator 接口 ) ，338-340 
compare() method, 338-339 
priority queue (优先 队列 ) ，340 
Transaction，339 
compare() method ( compare() 方法 ) 
See Comparator interface ( 见 Comparator 接口 ) 
compareTo() method ( compareTo() 方法 ) 
See Comparable- interface ( 加 ) 
Compile a program ( 编译 程序 ) ， 
Compiler ( 编译 器 ) ，492, 498 
Complete binary tree ( 完全 二 叉 树 ) ，314 
Complete graph ( 完全 有 向 图 ) ，681 
Compression. See Data compression ( 压缩 ， 见 数据 压缩 ) 
Computability ( 可 计算 性 ) ，910 
Computational complexity ( 计算 复杂 性 ) 
Cook-Levin theorem ( Cook-Levin 定理 ) ，9 
Intractability ( 不 可 解 性 ) ，910-921 
NP-complete ( NP- 完全 ) ，917-918 
NP, 912 
Pp, 914 
P= NP question, 916 
poly-time reduction ( 多 项 式 时 间 问题 的 相互 归 约 ) 、 
.916-917 和 
sorting (排序 ) ，279-282 
Computational geometry ( 计算 几何 学 ) ，76 
”Concatenation of strings ( 字符 串 连接 ) ，34 
Concordance ( 对 照 索 引 ) ，510 
Concrete type ( 具体 类 型 ) ，122, 134 
Conditional statement ( 条 件 语句 ) ，15 
Connected components ( 连通 分 量 ) 
Computing (计算 ) ，543-546 
Defined (定义 ) ，519 
union-find ( union-find 算法 )-，217 
Connected graph( 连通 图 ) ，519 
Connectivity ( 连通 性 ) 
articulation point ( 关节 点 ) ，562 
biconnectivity (双向 连通 性 ) ，562 
bridge( 桥 》 ，562 


components ( 分 量 ) ，543-546 
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dynamic ( 动态 的 ) ,216 

edge-connected graph ( 边 连 通 图 ) ，562 

strong connectivity ( 强 连通 性 ) ，584-591 

undirected graph (无 向 图 ) ，530 

union-find ( union-find 算法 ) ，216-241 
Constant running time ( 常数 级 别 的 运行 时 间 ) ，186 
Constructor ( 构造 函数 ) ，65, 84-85 
continue statement ( continue 语句 ) ，15 
Contract ( 契约 ) ，33 
Cook-Levin theorem ( Cook-Levin 定理 ) ，918 
Cook, S., 759, 918 
Cost model ( 成 本 筑 型 ) ，182 

array accesses ( 数组 的 访问 次 数 ) ，182, 220, 369 

binary search ( 二 分 查找 ) ，184 

B-tree (B- 树 ) ，866 

compares ( 比较 ) ，369 

equality tests ( 等 价 性 测试 ) ，369 

searching (查找 ) ，369 

sorting ( 排序 ) ，246 

symbol table ( 符号 表 ) ，369 

3-sum ( 3-sum 问题 ) ，182 

union-find ( union-find 算法 ) ，220 
Coupon collector problem ( 优惠 券 收集 问题 ) ，215 
Covariant arrays ( 共 变数 组 ) ，158 
CPM. See Critical-path method ( CPM， 见 最 短路 径 算法 ) 
Clanguage (C 语 育 ) ，104 
C++ language ( C++ 语言 ) ，104 
Critical edge ( 关键 边 ) ，633, 690, 900 
Critical path ( 关键 路 径 ) ，663 
pe ， 663， 664 
Crossing edge ( 横 切 边 ) ， 
Cubic running time ( 2 ，186 
Cuckoo hashing ( Cuckoo 散 列 函 数 ) ，484 二 


-~ Cut ( 切 分 ) ，606 


.See also Mincut es ( 另 见 Mincut 证 
capacity of ( 容量 ) ， 
Si en ，634 
Property for MST ( 最 小 生成 树 定理 ) ，606 
afeut (st- 切 分 )，892 
Cycle ( 环 ) 
Eulerian ( 欧 拉 ) ,562, 598 
Hamiltonian (汉密尔顿 ) ，562 
ia digraph ( 在 有 向 图 中 ) ，567 
ina graph (在 图 中 ) ，519 
odd length (奇数 长 度 ) ，562 
simple ( 简单 ) ，519, 567 
Cycle detection ( 检测 环 ) ，546-547 
Cyclic rotation of a string ( 字符 申 的 回环 变 位 ) ，784 





DAG. See Directed acyclic graph ( DAG, 
graph ) 
Dangling else ( 无 主 的 else ) ，52 
Dantzig, G., 909 
Data abstraction ( 数据 抽象 ) ，64-119 
Data compression ( 数据 压缩 ) ，810-851 
fixed-length code ( 定 长 编码 ) ，819-821 
- Huffman ( 霍 夫 部) ，826-838 
lossless (无 损 ) ，811 
lossy (有 损 ) ，811 
LZW algorithm ( LZW 压缩 算法 ) ，839-845 
prefix-free code (前缀 码 ) ，826-827 
run-length encoding ( 游程 编码 】 ，822-825 
2-bit genomics code ( 双 位 基因 编码 ) ，819-821 
undecidability ( 不 可 判定 性 ) ，817 
uniquely decodable code (唯一 解码 ) ，826 
universal (通用 ) ，816 
variable-length code( 变 长 码 ) ，826 
。 Data stmucture (数据 结构 ) 
adjaceney lists ( 邻接 表 ) ，525 
.adjacency matrix( 邻接 矩阵 ) ，524 
binary heap( 二 叉 堆 ) ，313 
binary search tree ( 二 叉 查 找 树 ) ，396 
binary tree (二叉树 ) ，396 
cireular linked list ( 环形 链表 ) ，165 
inked list ( 双向 链表 ) ，146 
(链表 ) ，142-146 
multiway trie ( 多 路 单词 查找 树 ) ，732 
ordered array ( 有 序数 组 ) ，312 
ordered list ( 有 序列 表 ) ，312 
parallel amays (平行 的 数组 ) ，378 
parent-link ( 父 链接 ) ，225 
resizing array ( 调整 数组 的 大 小 ) ，136 
ternary search trie ( 三 向 单词 查找 树 ) ，746 
unordered array( 无 序数 组 ) ，310 
unordered list ( 无 序列 表 ) ，312 
Data type ( 数据 类 型 ) 
abstract ( 抽象 数据 类 型 ) ，64 
design of (抽象 数据 类 型 的 设计 ) ，96-97 
encapsulation ( 抽象 数据 类 型 的 封装 ) ，96 
Date data type ( 日期 数据 类 型 ) ，78-79 
compareTo() method ( compareTo() 方法 ) ，247 
equals() method (equals0) 方法 ) ，103 
implementation ( 实现) ，91 
.toString() method (toString() 方法 ) ，103 
Decision problem (决定 性 问题 ) ，913 
Declaration statement ( 声明 语句 ) 。14 


见 Directed acyclic 






Dedup (dedup 过 滤器 ) ，490 
Default initialization ( 默认 初始 化 ) ，18, 86 
Defensive copy ( 保护 性 复制 ) ，112 
Degree of a vertex ( 顶点 度数 ) ，519 
Degrees of separation ( 间隔 的 度数 ) ，553-554 
Denial-of-service attacks ( 拒绝 服务 攻击 ) ，197 
Dense graph ( 稠密 图 ) ，520 
Deprecated method ( 弃 用 的 方法 ) ，113 
Depth-first search ( 深度 优先 搜索 ) ，530-534 
bipartiteness (二 分 图 ) ，547 
connected components ( 连通 分 量 ) ，543 
cycle detection ( 检测 环 ) ，547 
directed cycle ( 有 向 环 ) ，574-581 
longest path ( 最 长 路 径 ) ，912 
maze exploration ( 探索 迷宫 ) ，530 
path finding ( 寻找 路 径 ) ，535-537 
reachability-( 可 达 性 ) ，570-573 
strong components ( 强 连通 分 量 ) ，584-591 
topological order ( 拓扑 排序 ) ，574-581 
transitive closure ( 传递 闭 包 ) ，592 
Tremaux exploration ( Tremaux 搜索 ) ，530 
2-colorability (双色 ) ，547 
- union-find ( union-find 算法 ) ，546 
Depth of a node ( 节点 的 深度 ) ，226 
Deque data type( 双向 队列 数据 类 型 ) ，167, 212 
Design by contract ( 契约 式 设计 ) ，107 
Deterministic finitestate automaton ( 有 限 状 态 自动 机 ) ，764 
Devroye, L., 412 
DFA. See Deterministic finite state automaton ( DFA， 见 Detr 
ministic finite-state automaton ) 
Diameter of a graph ( 图 的 直径 ) ，559, 685 
Dictionary ( 字典 ) ，361. See also Symbol table ( 另 见 Symbol 
table ) 
Digraph. See Directed graph ( 有 向 图 ， 见 Directed graph ) 
Digraph data type ( 有 向 图 的 数据 类 型 ) ，568-569 
Dijkstra, E. W ，128, 298, 628, 682 
Dijkstra's 2-stack algorithm ( Dijkstra 双 栈 算法 ) ，128-131 
Dijkstra'salgorithm ( Dijkstra 算法 ) ，652-657 
bidirectional search ( 双向 搜索 ) ，690 
negative weights ( 负 权 重 ) ，668 
Directed acyclic graph ( 有 向 无 环 图 ) ，574-583 
depth-first orders ( 深度 优先 次 序 ) ，578 
edge-weighted (加 权 ) ，658-667 
Hamiltonian path ( 哈密 顿 路 径 ) ，598 
lowest common ancestor (最 近 共 同 祖先 ) ，598 
shortest ancestral path ( 最 短 先导 路 径 ) ，598 


topological order ( 拓扑 排序 ) ，575 
topological sort ( 拓扑 排序 ) ，575 
Directed cycle (有 向 环 ) ，567 
Directed cycle detection (ey 576 
Directed edge ( 有 向 边 ) ， x 
Directed graph ( 有 向 图 ) ，566-603 
See also Eon dy ( 另 见 Edge-weighted - 
digraph ) 
acyclic (无 环 ) ，574-583 
“adjacency-lists representation ( 邻接 表 表示 ) ，568， 
568-569 
all-pairs reachability ( 顶点 对 的 可 达 性 ) ，590 
anatomy of ( 详解 ) ，567 
breadth-first search ( 广度 优先 搜索 ) ，573 
cycle ( 环 ) ，567 
cycle detection ( 检测 环 ) ，576 
defined (定义 ) ，566 
directed paths ( 有 向 路 径 ) ，573 
edge ( 边 ) ，566 
Euler cycle ( Euler 环 ) ,598 
indegree and outdegree ( 入 度 和 测度) ，566 
Kosaraju's algorithm ( Kosaraju 算法 ) ，586-590 
path 《路径 )，567. 
postorder traversal ( 后 序 道 历 ) ，57 
， preorder traversal ( 前 序 遍 历 ) ，57! 
reachability ( 可 达 性 ) ，570-572 
Teachable vertex ( 可 达 顶 点 ) ，567 
reverse ( 取 反 ) ，568 
Teverse postorder ( 道 后 序 ) ，578 
shortest ancestral path ( 最 短 先 导 路 径 ) ， 
shortest directed paths〔 最 短 有 向 路 径 ) ， a 
simple (简单 ) ，567 
strong component ( 强 连通 分 量 ) ，584- 
strong connectivity ( 强 连通 性 ) ，584-591 
strongly-connected ( 强 连 通 ) ，584 
“topological order ( 拓 补 排序 ) ， 和 
transitive closure《 传递 闭 包 ) ， 
Directed path ( 有 向 路 径 ) ，567 3 
Disjoint set union. See Union find ( 不 相交 集合 并 ， 见 Union 
.find ) 
Divide-and-conquer paradigm ( 分 治 思想 的 典型 应 用 ) 
mergesort (合并 排序 ) ，270 
quicksort (快速 排序 ) ，288, 293 
Division by zero《 除 零 异 常 ) ，5 


Documentation (文档 ) ，28 Ct 


Double hashing ( 二 次 散 列 ) ，483 


double primitive data type ( double 原始 数据 类 型 ) ，12 


Double probing《 二 次 探测 ) ，483 
Doubling ratio experiment ( 倍率 实验 ) ，192 
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Doubling test ( 双 们 测试) ，176-177 

Doubly-linked list ( 双向 链表 ) ,146 

Draw data type ( Draw 数据 类 型 ) ，82, 83 

Dump ( 转 储 )，813 

Duplicate keys (重复 元 素 ) 
3-way quicksort ( 三 向 切 分 的 快速 排序 ) ，301 
hash table ( 散 列表 ) ，488 
im asymbol table ( 符号 表 中 的 重复 元 素 ) ，363 
MSD string sort ( 高 位 优先 的 字符 串 排序 ) ，715 
priority queue ( 优先 队列 ) ，309 
quicksort ( 快速 排序 ) ，292 
sorting (排序 ) ，344 
stability ( 稳定 性 ) ，34! 
Dutch National Flag ( 荷兰 国旗 问题 ) ，298 
Dynamic connectivity ( 动态 连通 性 ) ，216 
Dynamic memory allocation (动态 内 存 分 配 ) ，104 
Dynamic resizing array.See Resizing array ( 动态 调整 数 

组 大 小 ， 见 Resizing array ) 


| 


Eccentiicity of a vertex ( 顶点 的 离心 率 ) ，559 








Edge ( 边 ) 
backward ( 逆向 ) ，891 
critical ( 关键 ) ，633, 900 


crossing ( 横 切 ) ，606 

data type (数据 类 型 ) ，60! 

directed (有 向 ) ，566, 638 

cligible (有 效 的 ) ，646 

forward ( 正 向 ) ，891 

incident ( 依附 于 ) ;519 

ineligible (无 效 的 ) ，616, 646 

parallel (平行 ) ，518 

self-loop ( 自 环 ) ，518 - 

undireeted (无 向 ) ，518 

weighted (加 权 ) ，608, 638 
Edge-connected graph ( 边 连通 的 图 ) ，562 
Edge relaxation ( 边 放松 ) ，646-647 
Edge-weighted DAG ( 加 权 有 向 图 ) ，658-667 

critical path method ( 关键 路 径 法 ) ，663-667 

longest paths ( 最 长 路 径 ) ，661 

shortest paths ( 最 短路 径 ) ，658-660 
Edge-weighted digraph ( 加 权 有 向 图 ) 

adjacency-lists ( 邻接 表 ) ，644 

complete (完全 ) ，679 

data type( 数据 类 型 ) ，641 

diameter of ( 直径 ) ，685 


” shorfest paths ( 最 短路 径 ) 。638-693 
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Edge-weighted graph ( 加权 无 向 图 ) 
adjacency-lists ( 邻接 表 ) ，609 
data type (数据 类 型 ) ，608 
min spanning forest ( 最 小 生成 森林 ) ，605 
min spanning tree ( 最 小 生成 树 ) ，604-637 
Edmonds, J., 901 
Eligible edge ( 有效 边 ) ，616, 646 
Ellipsoid algorithm ( 椭 球 法 ) ，909 
”Empty string epsilon ( 空 字符 串 上 ) ， 
Encapsulation ( 封装 ) ,96 
Entropy ( 烂 】,300-301 
Epsilon-transition ( 6- 转换 ) ， 
Equal keys. ee 见 Duplicate keys ) 
equals() method (equals 〇 方法 ) ，102-103 
symbol table ( 符号 表 ) ，365 
Equivalence class ( 等 价 类 ) ，216 
Equivalence relation ( 等 价 性 ) 
connectivity.( 连通 性 ) ，216, 543 
equals() method (equa1s() 方法 ) ，102 
strong connectivity ( 强 连通 性 ) ，584 
Erd5s number ( Erd6s 数 ) ，554 
Erdas, 了 ，554 
Erd6s-Renyi model ( Erd5s-Renyi 模型 ) ，239， 
Error. See also Exception (错误 ， 另 见 异 常 ) 
OutOfMemoryError, 107 
StackOverflowError, 57, 107 
Euclid's algorithm ( 欧 几 里 德 算法 ) ，4, 58 
Eulerian cycle ( 欧 拉 环 ) ，562, 598 
Event-driven simulation ( 事件 驱动 模拟 ) ， 
Exception. See also Error (异常 ， a 
Arithmetic; 107 
ArrayIndexOutOfBounds, 107 
ClassCast, 387 
NoSuchElement, 139 
Nu11Pointer，159 
Runtime，107 
UnsupportedOperation, 139 
ConcurrentModification, 160 
exch() method (exch() 方法 ) ，245,315 
Exhaustive search ( 穷 举 搜索 ) ，912 
Exponential inequality ( 指数 级 别 ) ，185 


789, 805 


Exponential running time ( 指数 级 别 的 运行 时 间 ) ，186.、 


661, 911 


Extended Church-Turing thesis ( 扩展 丘 奇 - 图 灵 论题 ) ， 


910 ~ : 
Extensible library《 可 扩展 的 库 ) ，101 


External path length ( 外 部 路 径 长 度 ) ，418, 832 


“，。 Fibonacci heap ( 斐 波 纳 契 堆 ) ， 





349, 856-865 





Factor an integer ( 整数 的 因数 ) ，919 
= Factorial function ( 阶乘 函数 ) ，185 
= -= Fail-fast iterator (快速 出 错 的 迭代 器 ) ， 
_ Farthest pair (最 琐 远 的 一 对 ) ,210 


160, 171 


628, 682 
Fibonacci numbers ( 斐 波 纳 契 数 ) ，5 
FIFO. See First-in first-out policy ( 先进 先 出 ， 见 先进 先 出 
策略) 
“FIFO queve. See Queue data type (先进 先 出 队列 ， 见 队列 
数据 类 型 ) 
7 File system ( 文件 系统 ) ，493 


Filter ( 过 滤器 ) ，60 


blacklist ( 黑 名 单 ) ，491 
dedup ( dedup 过 滤器 ) ，490 
whitelist ( 白 名 单 ) ，8, 49T 
final aceess modifier ( final 访问 修饰 符 ) ，105-106 
Fingerprint search ( 指纹 搜索 ) ，774-778 
Finite state automaton. See Deterministic finite state 
automaton N 
First-in-first-out policy ( 先进 先 出 策略 ) ，126 
Fixed-capaciry stack ( 定 容 栈 ) ，132, 134-135 
“Fixed-length code ( 定 长 编码 ) ，826 
- Float primitive data type ( 浮 点 型 原始 数据 类 型 ) ，13 
Flood fll ( 填充 ) ，563 
< Floor function ( 向 上 取 整 函数 ) 
binary search tree ( 二 叉 查 找 树 ) ，406 
mathematical function ( 数学 函数 ) ，185 
ordered array ( 有 序数 组 ) ，3! 
symbol table 【符号 表 ) ，367, 383 
Flow (流量 ) ，888. See also Maxflow problem ( 另 见 Maxflow 
“problem ) 
flow network ( 流量 网 络 ) ，888 
inflow and outfiow ( 流 人 量 和 流出 量 ) ，888 
-residual network ( 剩余 网 络 ) ，895 
si-flow (st- 流量 ) ，888 
st-flow network ( st- 流量 网 络 ) ，888 
value ( 值 ) ，888 
Floyd, R. W., 326 
Floyd's method ( Floyd 方法 ) ，327 
forloop ( for 循环) ，16 
Ford-Fulkerson ( Ford-Fulkerson 算法 ) ，891-893 
analysis of ( 分 析 ) ，900 
maximum-capacity path ( 最 大 容量 增 广 路 径 ) ，901 
“shortest augmenting path ( 最 短 增 广 路 径 ) ，897 
Ford,L., 683 - 
_Foreach loop ( foreach 循环 ) ，138 





amays (数组 ) ，160 
strings ( 字符 串 ) ，160 
Forest ( 森林 ) 
graph (图 ) ，520 
spanning ( 生成 ) ，520 
Forest-of-trees ( 森林 ) ，225 
Formatted output ( 格式 化 输出 ) ，37 
Fortran language ( Fortran 语言 ) ，217 
Fragile base class problem ( 脆弱 的 基 类 问题 ) ，112 
Frazer, W., 306 
Fredman, M. L., 628 
Function-call stack( 函数 调用 所 需 的 栈 ) ，246, 415 





G 


Garbage collection ( 垃圾 收集 ) ，104, 195 
loitering ( 对 象 游离 ) ，137 
mark-and-sweep (标记 - 清除 ) ，573 
Gaussian elimination ( 高 斯 消 元 法 ) ，919 
Generics ( 泛 型 ) ，122-123, 134-135 
and covariant arrays ( 泛 型 与 共 变数 组 ) ，158 
and type erasure ( 泛 型 与 类 型 探 除 ) ，158 
array creation ( 创建 数组 ) ，134, 158 
Parameterized type ( 参数 化 类 型 ) ，122 
priority queues ( 优先 队列 ) ，309 
stacks and queues ( 栈 和 队列 ) ，134-135 
symbol tables ( 符号 表 ) ，363 
type parameter ( 类 型 参数 ) ，122, 134 
Genomics ( 基因 组 ) ，492, 498 
Geometric data types ( 几何 对 象 数据 类 型 ) ，76-77 
Geometric sum ( 等 比 数列 之 和 ) ，185 
getClass() method ( getClass() 方法 ) ，101, 103 
Girth of a graph ( 图 的 周 长 ) ，5s9 
Global variable ( 全 局 变量 ) ，113 
Gosper R. W., 759 
Graph data type ( 图 数据 类 型 ) ，522-527 
Graph isomorphism ( 图 同 构 ) ，561, 919 
Graph processing ( 图 处 理 ) ，514-693. See also Directed 
graph ( 另 见 Directed graph ) ; See also Edge_weighted 


digraph ( 另 见 Edge-weighted digraph ) ; See also Edge- 


weighted graph ( 另 见 Edge-weighted graph ) ; See also 
Undirected graph ( 另 见 Undirected graph ) ; See also 
Directed acyclic graph ( 男 见 Directed acyclic graph ) 
Bellman-Ford ( Bellman-Ford 算法 ) ，668_681 
breadth-first search ( 广度 优先 搜索 ) ，538-541 
components ( 分量) ，543-546 

critical-path method ( 关键 路 径 法 ) ，664_666 
depth-first search ( 深度 优先 搜索 ) ，530-537 
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Dijkstra's algorithm ( Dijkstra 算法 ) ，652 

Kosaraju's algorithm ( Kosaraju 算法 ) ，586-590 

Knuskal"s algorithm ( Kruskal 算法 ) ，624-627 

longest paths ( 最 长 路 径 ) ，911-912 

max bipartite matching ( 最 大 二 分 图 匹配 ) ，906 

min spanning tree ( 最 小 成 生 树 ) ，604-637 

Prim's algorithm ( Prim 算法 ) ，616-623 

reachability ( 可 达 性 ) ，570-573 

shortest paths ( 最 短路 径 ) ，638-693 

strong components ( 强 连通 分 量 ) ，584-591 

symbol graphs ( 符号 图 ) ，548 

transitive closure ( 传递 闭 包 ) ，592-593 

union-find ( union-find 算法 ) ，216-241 
Greatest common divisor ( 最 大 公约 数 ) ，4 
Greedy algorithm ( 贪心 算法 ) 

Huffman encoding ( 敌 夫 曼 编码 ) ，830 

minimum spanning tree ( 最 小 生成 树 ) ，607 
Grep, 804 


H 


Halting problem ( 停机 问题 ) ，910 
Hamiltonian cycle ( 汉密尔顿 环 ) ，562, 920 
Hamiltonian path ( 汉密尔顿 路 径 ) ，598, 913, 920 
Handle (句柄 ) ，112 
Hard-disc model ( 刚性 球体 模型 ) ，856 
Harmonic number ( 调和 数 ) ，23, 185 
Harmonic sum ( 调和 数 之 和 ) ，185 
hashCode() method (hashCodeQ 方法 ) ，101, 102, 461- 
462 
Hash function ( 散 列 函数 ) ，458, 459-463 
modular ( 除 留 余数 ) ，459 
perfect ( 完美 散 列 函 数 ) ，480 
Rabin-Karp algorithm ( Rabin-Karp 算法 ) ，774 
Hashing. See Hash fonction ( 散 列 ， 见 Hash function ) 
See also Hash table ( 另 见 Hash table ) 
hash function ( 散 列 函数 ) ，459-463 
time-space tradeoff ( 时 间 和 空间 作出 权衡 ) ，458 
Hash table ( 散 列表 ) ，458-485 
array resizing ( 调整 数组 大 小 ) ，474-475 
clustering (键入 ) ，472 
collision resolution ( 处 理 碰 挤 冲突 ) ，458 
Cuckoo hashing ( 布谷 乌 散 列 ) ，484 
deletion ( 删除 ) ，468 
double hashing ( 二 次 散 列 ) ，483 
double probing ( 二 次 探测 ) ，483 
duplicate keys ( 重复 元 素 ) ，488 
hashCode() method ( hashCodeC) 方法 ) ,61-462 
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hash function ( 散 列 函数 ) ，458 
Java library ( Java 库 ) ，489 
linear probing ( 线性 探测 ) ，469-474 
load factor ( 使 用 率 ) ，471 
memory usage of ( 内 存 使 用 ) ，476 _ 
primitive types ( 原始 数据 类 型 ) ，488 
separate chaining ( 拉链 法 ) ，464-468 
uniform hashing assumption ( 均匀 散 列 假设 ) ，463 
Head vertex (头顶 点 ) ，566 
Heap. See Binary heap ( 堆 ， 见 Binary heap ) - 
multiway ( 多 又 堆 ) ，319 
Heap order ( 堆 有 序 ) ，313 
Heapsort ( 堆 排 序 ) ，323-327 
Height ( 树 的 高 度 ) 
2-3 search tree ( 2-3 查找 树 ) ，429 
binary search tree ( 二 又 查找 树 ) ，412 
complete binary tree (完全 二 叉 树 ) ，314 
red-black BST ( 红 黑 二 叉 查 找 树 ) ，444 
tree ( 树 ) ，226 
Hibbard deletion ( Hibbard 删除 方法 ) ，422 
Hibbard, T., 410 
Hoare, C. A. R., 205 
Horner's method ( Homer 方法 ) ，460 
hsorted array ( 户 有 序数 组 ) ，258 
Huffinan compression ( 震 夫 晶 压 缩 ) ，350, 826-838 
analysis of ( 分 析 ) ，833 
optimality of ( 最 优 性 ) ，833 
Huffman, D.,827 





if statement ( if 语句 ) ，15 
if-else statement ( if-else 语 句 ) ，15 
Immutability ( 不 可 变性 ) ，105-106 
defensive copy《 保护 性 复制 ) ，112 
of strings (字符 囊 的 不 可 变性 ) ，114, 202, 696 
priority queue keys ( 优先 队列 中 的 元 素 ) ，320 
symbol table keys ( 符号 表 中 的 键 ) ，365 
Implementation ( 实现 ) ，28, 88 
Implementation inheritance ( 实现 继承 ) ，101 
import statement ( import 语句 ) ，27, 29, 66 
Incident edge( 关联 边 ) ，519 
Increment sequence ( 递增 序列 ) ，258 
In data type (In 数据 类 型 ) ，41, 83 
Indegree of a vertex( 顶点 的 人 度 ) ，566 
Index (索引 ) ，361, 496-501 
string (字符 串案 引 ) ，877 
files (文件 案 引 ) ，500-501 





inverted ( 反 向 索引 )》 ，498-501 


-一 Index priority queue (索引 优先 队列 ) ，320-322 


Dijkstra's algorithm ( Dijkstra 算法 ) ，652 
Prim's algorithm ( Prim 算法 ) ，620 
lndirect sort ( 间接 排序 ) ，286 


一 Ineligible edge (无 效 边 ) ~ 





minimum spanning tree ( 最 小 生成 树 ) ，616 
shortest paths ( 最 短路 径 ) ，646 


二 Infix notation ( 中 级 记 法 ) ，13, 128, 162 
= Inherited methods (继承 的 方法 ) ，66, 100-101 


compare(), 338-339 
compareToC ，246-247 
equalsO ，102-103 
getClassO, 101 
hashCodeO) , 101, 461-462 
hasNext(), 138 
iteratorO), 138 
next(O), 138 
tosString 〇 O ，66, 101 
Inner loop ( 内 循环 ) ，180, 184, 195- 
Inorder tree traversal ( 中 序 饥 历 ) ，412 
In-place merge ( 原 地 合并 ) ，270 
Input and output ( 输入 和 输出 ) ，82-83 
binary data ( 二 进 制 数据 ) ，812-815 
from a file ( 从 文件 重 定向 标准 输入 或 将 标准 输出 重 
定向 到 文件 ) ，41 
piping ( 管道) ，40 
redirection ( 重 定向 ) ，40 
Input model ( 输入 模 型 ) ，197 
Input size ( 输入 规模 ) ，173 
Insertion sort ( 插入 排序 ) ，250-252 
Instance method ( 实例 方法 ) ，65, 84 
Instance variable ( 实例 变量 ) ，84 
int primitive data type ( int 原始 数据 类 型 ) ，12 
Integer linear inequality satisfiability problem ( 整数 线性 不 
等 式 可 满足 性 问题 ) ，913 
Integer linear programming ( 整数 线性 规划 ) ，920 
Integer overflow ( 整数 溢出 ) ，51 
Interface ( 接口) ，100 
Comparable, 246-247 
Comparator, 338-340 
Iterable, 138 
Iterator, 139 
Interface inheritance ( 接口 继承 ) ，100 
Interior point method ( 内 点 法 ) ，909 
Intemal path length ( 内 部 路 径 长 度 ) ，412 
Intemet DNS ( 互联 网 DNS ) ，493 
Intemet Movie Database ( 互联 网 电影 数据 库 ) ，497 
Interpreter ( 解释 器 ) ，130 


Interval graph ( 区 间 图 ) , .564 _ 
Jntractability ( 不 可 解 性 ) ，910-921 
Inversion ( 反 向 ) ,252,, 286 
Inverted index ( 反 向 索引 ) ，498-501 
Jsing model( 伊 辛 模型 ) ，920 
Isomorphic graph ( 同 构图 ) ，561 
ltem (元 素 ) 
contains a key ( 每 个 元 素 有 一 个 主键 ) ，244 
sorting ( 排序 ) ，244 
symbol table ( 符号 表 ) ，387 
with multiple keys ( 多 键 数组 ) ，339 
Item type parameter ( Item 数据 类 型 ) ，134 
Heration ( 迁 代 ) ，123, 138-141 
fail-fast ( 快速 出 错 ) ，171 
foreach loop ( foreach 循环 ) ，123 
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“Jacquet, P，882 
Jarnik’s algorithm ( Jarnik 算法 ) ，628 
See also Prim'salgorithm ( 男 见 Prim 算法 ) 
Jarnik, V., 628 有 
Java programming ( Java 编程 ) 
aray (数组 ) ，18-21 “ 
arrays as objects ( 数组 对 象 ) ，72 
armrays ofobjects ( 对 象 的 数组 ) ，72 
assertion (断言 ) ，107 
assert statemerit (assert 语句 ) ，107 
assignment statement ( 赋值 语句 ) ，14 
autoboxing ( 自动 装 箱 ) ，122 
autounboxing ( 自动 拆 箱 ) ，122. 
base class ( 基 类 ) ，101 
bitwise operators ( 位 运算 符 ) ，52 
block statement ( 语句 块 ) ，15 
boolean expression ( 布尔 表达 式 ) ，13 
break statement (break 语句 ) ，15 
bytecode ( 字 节 码 ) ，10 
cast (类 型 转换 ) ;13 
class (类 ) ，10, 64 
classpath ( 类 路 径 ) ，66 
comparison operator ( 比较 运算 符 ) ，13 
conditional statement ( 条 件 语句 ) ，15 
constructor ( 构造 函数 ) ，65, 84 
continue statement ( continue 语句 ) ,15 
covariant arrays( 共 变数 组 ) ，158 
create an object ( 创建 对 象 ) ，67 
declaration statement (声明 语句 ) ，14 
default initialization ( 默认 初始 化 ) ，18, 86 
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deprecated method ( 弃 用 的 方法 ) ，113 
derived class ( 派生 类 ) ，101 

Error, 107 

Exteption, 107 

expression( 表达 式 ) ，11, 13 

final modifier ( final 修饰 符 ) ，84, 105-106 
for loop (for 循 环 ) ，16 

foreach loop ( foreach 循环 ) ，123 

garbage collection ( 垃圾 收集 ) ，104 
generic array creation ( 创建 泛 型 数组 ) ，158 
generics ( 泛 型 ) ，122-123, 134-135 
identifier ( 标识 符 ) ，11 

if statement (if 语句 ) ，15 

if-else statement ( if-else 语 句 ) ，15 
implicit assignment ( 隐 式 赋值 ) ，16 

import statement ( import 语句 ) ，29 
imported system libraries ( 导 人 的 系统 库 ) ，27 


”infix expression ( 中 组 表达 式 ) ，13 


inheritance (继承 ) ，100-101 
inherited method ( 继承 的 方法 ) ，66 
initializing declarations ( 初始 化 声明 ) ，16 
inner class ( 内 部 类 ) ，159 
instance method ( 实例 方法 ) ，65, 84, 86 
instance method signature (实例 方法 签名 ) ，86 
instance variable ( 实例 变量 ) ，84 

invoke instance method ( 调用 实例 方法 ) ，68 
iterable collections ( 可 检 代 的 集合 ) ，123 
just-in-time compiler (JIT 编译 器 ) ，195 
literal ( 字面 量 ) ,11 

loitering (游离 对 象 ) ，137 

loop statement ( 循环 语句 ) ，15 

memory management ( 内 存 管理 ) ，104 
modular programming ( 模块 化 编程 ) ，26 
nested class ( 嵌 套 类 ) ，159 

newO), 67 

objects (对 象 ) ，67-74 

objects as argumcnts ( 对 象 作为 参数 ) ，71 
objects as retumn values ( 对 象 作为 返回 值 ) ，71 
operator ( 运算 符 ) ，11 

operator precedence ( 运算 符 优先 级 ) ，13 
orphan (孤儿 ) ，137 
omphaned object ( 孤儿 对 象 ) ，104 
overloading ( 重 载 ) ，12, 24 

override a method ( 重 载 方法 ) ，101 
parameterized type ( 参数 化 类 型 ) ，122, 134 


”pass by reference ( 按 引用 传递 ) ，71 


pass by value ( 按 值 传递 ) ，24, 71 
primitive data type ( 原始 数据 类 型 ) ，11-12 
private class (private 类 ) ，159 
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private modifier ( private 修饰 符 ) ，84 Integer, 102 
protected modifier ( protected 修饰 符 ) ，110 Tterable, 100, 123, 138, 154 
public modifier ( public 修饰 符 ) ，84, 110 Long，102 

ragged array ( 参差 不 齐 的 数组 ) ，19 Math, 28 

recursion ( 递归 ) ，25 Nu11Pointer，107, 113, 159 
reference (引用 ) ，67 Object, 101 

reference type ( 引用 类 型 ) ，64 OutOfMemoryError, 107 
return statement ( return 语句 ) ，86 RuntimeException, 107 
scope (作用 域 ) ，14, 87 Short, 102 
short-cireuiting ( 短路 求 值 法 则 ) ，52 StackOverflowError, 57,107 
side effects (副作用 ) ，24 StringBuilder, 27, 105, 697 
single-statement blocks ( 单 语句 代码 段 ) ，16 UnsupportedOperation, 139 
standard libraries (标准 库 ) ，27 java.net 

standard system libraries ( 标准 系统 库 ) ，27 URL, 75 

statement ( 语句 ) ，14 java.util 

static method ( 静态 方法 ) ，22-25 ArrayList, 160 

static variable ( 静态 变量 ) ，113 Arrays, 29 

strong typing ( 强 类 型 ) ，14 Comparator, 100, 339 
subclass ( 子 类 ) ，101 ConcurrentModification, 160 
superclass ( 父 类 ) ，101 Date, 113 

this reference ( this 引用) ,87 HashMap, 489 

throw an error/exception ( 抛 出 错误 或 异常 ) ，107 Iterator, 100, 138-141, 154 
two-dimensional aray ( 二 维 数组 ) ，19 LinkedList, 160 

type conversion (类 型 转换 ) ，13, 35 NoSuchElementException, 139 
type erasure ( 类 型 擦 除 ) ，158 PriorityQueue, 352 

type parameter ( 类 型 参数 ) ，122 Stack, 159 

unit testing ( 单元 测试 ) ，26 TreeMap, 489 

using objects ( 使 用 对 象 ) ，69 Job-scheduling problem. See Scheduling ( 任务 调度 问题 ， 
variable ( 变量 ) ，11 见 Scheduling ) 

visibility modifier ( 可 见 性 修饰 符 ) ，84 Josephus problem ( Josephus 问题 ) ，168 
while loop ( while 循环 ) ，15 Just-in-time compiler (JIT 编辑 器 ) ，195 


wrapper type ( 封装 类 型 ) ，122 
Java system sort (Java 系统 排序 ) ，306 


Java virtual machine (Java 虚拟 机 ) ，51 K 

java.awt 5 
Color, 75 Kamp, R., 759, 901 
Font, 75 Kendall tau distance ( Kendall's tau 距离 ) ，286, 345, 356 

java.io Kevin Bacon number ( Kevin Bacon 数 ) ,553-554 
File, 75 Key ( 键 ) ,244 

java.lang Key equality ( 键 的 等 价 性 ) 
ArithmeticException, 107 ordered symbol table ( 有 序 符 号 表 ) ，368 
ArrayIndexOutOfBounds，107 symbol table ( 符号 表 ) ，365 
Boolean, 102 Key-indexed counting ( 键 索引 计数 法 ) ，703-705 
Byte, 102 Key type parameter ( Key 类 型 参数 ) 
Character, 102 priority queue ( 优先 队列 ) ，309 
ClassCastException, 387 symbol table ( 符号 表 ) ，361 
Comparable, 100 Keyword in context ( 上 下 文中 的 关键 词 ) ，879 
Double, 34,102 Khachian, L. G., 909 


Float, 102 Kleene’s theorem ( Kleene 定理 ) ，794 
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Knuth, D. E., 178, 205, 759 ”insertion (插入 ) ，145 

Knuth-Morris-Pratt, 762-769 insertion at beginning ( 在 表 头 插入 节点 ) ，144 

Kosaraju's algorithm ( Kosaraju 算法 ) ，586_590 insertion at end ( 在 表 尾 插入 节点 ) ，145 

Kruskal, J., 628 iterator ( 迭代 器 ) ，154-155 

Kruskal's algorithm ( Kruskal 算法 ) ，624-627 memory usage of ( 内 存 使 用 ) ，201 

KWIC. See Keyword-in-context (KWIC， 见 Keyword-in- ”Node data type ( Node 数据 类 型 ) ，142 
context ) queue (队列 ) ，150 


a - 六 reverse a ( 将 链表 反 转 ) ，165 
sequential search ( 顺序 查找 ) ，374 





Sd shufflea ( 打 乱 链表 ) ，288 
sorta (链表 排序 ) ，286 
Last-in-first-out policy ( 后 进 先 出 策略 ) ，127 stack ( 栈 ) ，147-149 
Las Vegas aigorithri ( 拉 斯 维 加 斯 算法 ) ，778 一 traversal (遍历 ) ，146 
Leading-term approximation. See Tilde notationt 首 项 近似 ， Eiteral ( 字面 量 ) 
见 Tilde notation ) null, 112-113 
Least-significant digit ( 最 低 有 效 位 数 ) primitive type ( 原始 数据 类 型 ) ，11 
See LSD string sort ( 见 LSD string sort ) string (字符 申 ) ，80 
Leipzig Corpora Collection《 Leipzig Corpora 数据 库 ) ， Load-balancing ( 负载 均衡 ) ，349, 909 
-7371" - Load factor ( 使 用 率 ) ，471 
Lempel, A., 839 Local minimum ( 数组 的 局 部 最 小 元 素 ) ，210 
less() method ( less() 方法 ) ，245,315 Logarithm function ( 对 数 函数 ) 
Level-order traversal ( 按 层 遍 历 ) binary (以 2 为 底 的 对 数 函数 ) ，185 
binary heap ( 二 又 堆 ) ，313 -integer binary ( 以 2 为 底 的 整 型 对 数 函 数 ) ，185 “ 
binary search tree ( 二 又 查找 树 ) ，420 natural ( 自然 对 数 函 数 ) ，185 
“Levin, L,, 918 Logarithmic running time ( 线性 对 数 级 别 的 运行 时 间 ) ， 
LIFO,. See Last-in first-out policy ( LIFO， 见 Last-in first- 186 
out policy ) Log-log plot ( 对 数 图 像 ) ，17 二 
， LIFO staek See Staek data type CLIFO 栈 ， 见 Stack data 。 Loitering (游离 对 象 ) ，137 
type) Longest common prefix ( 最 长 公共 前 组 ) ，875 


Linear equation satisfiability ( 线性 等 式 可 满足 性 ) 913 “Tongest paths (最 长 路 径 ) ，661.911 
Linear inequality satisfiability ( 线性 不 等 式 可 满足 性 ) ， Longest prefix match ( 匹配 的 最 长 前 级 ) ，842 


913 3 : Longest processing-time first rule ( 最 大 优先 ) ，349 
Linear probing ( 线性 探测 ) ，469-474 Longest repeated substring ( 最 长 重复 子 字符 串 ) ，875 
Linear programming ( 线性 规划 ) ，907-909 1ong primitive data type ( 1ong 原始 数据 类 型 ) ，13 

ellipsoid algorithm-( 椭 球 法 ) , -909 Loop 【循环 ) 

interior point method ( 内 点 法 ) ，909 for, 16 

reductions 【 归 约 ) ，907-909 foreach, 138 

simplex algorithm ( 单纯 形 法 上 ，909 inner ( 内 部 循环 ) ，180 
Linear running time ( 线性 级 别 的 运行 时 间 ) ，186 while, 15 
Linearithmic running time ( 线性 对 数 级 别 的 运行 时 间 ) ， Lossless data compression ( 无 损 数据 压缩 ) ，811 

186 Lossy data compression ( 有 损 数据 压缩 ) ，811 
Linked allocation ( 链 式 存储 ) ，156 .Lowerbound (下 界 ) 

Linked list ( 链表 ) ，142-146 Priority queue ( 优先 队列 》，332 

building ( 创建 链表 ) - ，143 sorting ( 排序 ) ，279-282 

cireular( 环形 链表 ) ，165 3-sum problem ( 3-sum 问题 ) ，190 

defined (定义 ) ，142 union-find ( union-find 算法 ) ，231 

deletion ( 删除 元 素 ) ，145 Lowest common ancestor ( 最 近 公 共 祖先 ) ，598 

deletion from beginning ( 从 表 头 删除 元 素 ) ，145 Loyd, S., 358 


garbage collection ( 垃圾 收集 ) ，145 LSD string sort ( 低位 优先 的 字符 串 排序 ) ，706-709 
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LZW algorithm ( LZW 压缩 算法 ) ，839-845 
compression ( 压缩 ) ，840 
expansion ( 压缩 的 展开 ) ，841 
trie representation ( 单词 查找 树 表示 ) ，840 


WT 


Manber, U., 884 
Mark-and-sweep garbage collection ( 标记 - 清除 的 垃圾 收 
集 ) ,573 
Maslow, A., 904 
Maslow's hammer ( Maslow 的 锤子 ) ，904 
Matrix data type (矩阵 数据 类 型 ) ，60 
Maxflow-mincut theorem ( 最 大 流 一 最 小 切 分 定理 ) ，894 
Maxflow problem ( 最 大 流 问 题 ) ，886-902 
See also Mincut problem ( 另 见 Mincut problem ) 
Ford-Fulkerson ( Ford-Fulkerson 算法 ) ，891-893 





integrality property ( 完整 性 ) ，894 译 


maxflow-mincut theorem ( 最 大 流 一 最 小 切 分 定理 ) ,- 


892-894 0 


max bipartite matching ( 最 大 二 分 图 匹配 问题 ) 906 


preflow-push algorithm ( preflow-push 算法 ) ，902 二 


reductions ( 归 约 ) ，905-907 
residual network ( 剩余 网 络 ) ，895-897 
Maximum ( 最 大 元 素 ) 4 
in array ( 数组 中 的 最 大 元 素 ) ，30 
in binary heap ( 二 叉 堆 中 的 最 大 元 素 ) ，313 


in binary search tree ( 二 叉 查 找 树 中 的 最 大 元 素 ) ,406 一 


in ordered symbol table ( 有 序 符号 表 中 的 最 大 元 素 ) ， 
367 


Maximum st-flow problem. See Maxflow problem ( 最 大 st- 


流量 问题 ， 见 Maxflow problem ) 
Max bipartite matching ( 最 大 二 分 图 匹配 问题 ) ，906 
Maze (迷宫 ) ，530 
Mellroy D., 298, 306 
MeKellar A., 306 
Median ( 中 位 数 ) ，332, 345-347 
Median-of-3 partitioning ( 三 取样 切 分 ) ，305 
Memory management ( 内 存 管理 ) ，104 
linked allocation ( 链 式 存储 ) ，156 
loitering〔 游离 对 象 )，137 
orphan ( 牟 儿 ) ，137 
Sequential allocation ( 顺序 存储 ) ，156 
Memory usage ( 内 存 使 用 ) ，200-204 
array (数组 ) ，202 
hash table ( 散 列表 ) ，476 
linked list (链表 ) ，201 
nested class ( 谋 套 类 ) ，201 





object (对 象 ) ，67, 201 

primitive types ( 原始 数据 类 型 ) ，200 
R-way trie ( R 向 单词 查找 树 ) ，746 
stack ( 栈 ) ，213 

string (字符 串 ) ，202 

substring ( 子 字符 串 ) ，202-204 


-Mergesort ( 合并 排序 ) ，270-288 


abstract in-place merge ( 抽象 原 地 合并 算法 ) ，270 
analysis of ( 合并 排序 分 析 ) ，272 
bottom-up ( 自 底 向 上 的 合并 排序 ) ，277 
linked list ( 链表 ) ，279, 286 
multiway-( 多 向 合并 排序 ) ，287 
natural ( 自然 合并 排序 ) ，285 
optimality ( 最 优 算法 ) ，282 
stability ( 稳定 性 ) ，341 
top-down ( 自 顶 向 下 的 合并 排序 ) ，272 
Merging ( 合并 ) ，270-271 
Method (方法 ) 
inherited ( 继承 的 方法 ) ，100-101 
instance (实例 方法 ) ，68-69, 86-87 
static ( 静态 ) ，22-25 
Mincut problem ( 最 小 切 分 问题 ) ，893 
See also Maxflow problem ( 男 见 Maxflow problem ) 


”Minimum ( 最 小 元 案 ) 


in amray ( 数组 中 的 最 小 元 案 ) ，30 
in binary scarch tree ( 二 又 查找 树 中 的 最 小 元 素 ) ，406 
in ordered symbol table ( 有 序 符号 表 中 的 最 小 元 素 ) ， 
367 
Min spanning forest ( 最 小 生成 森林 ) ，605 
Min spanning tree ( 最 小 生成 树 ) ，604-637 
Boruvka's algorithm ( Boruvka 算法 ) ，636 
bottleneck shortest paths ( 瓶颈 最 短路 径 ) ，690 
critical edge ( 关键 边 ) ，633 
crossing edge ( 横 切 边 ) ，606 
cut ( 切 分 ) ，606 
cut optimality conditions ( 最 优 切 分 条 件 ) ，634 一 
cut property ( 切 分 定理 ) ，606 
defined ( 定义 ) ，604 
greedy algorithm ( 贪心 算法 ) ，607 
Kmuskal's algorithm ( Kruskal 算法 ) ，624-627 
Prim's algorithm ( Prim 算法 ) ，616-623 
reverse-delete algorithm ( 逆向 删除 算法 ) ，633 
Vyssotsky's algorithm ( Vyssotsky 算法 ) ，633 
Minimum st-cut problem. See Mincut problem ( 最 小 st- 切 
分 同 题 ， 见 Mincut problem ) 
Minotaur ( 米 诺 陶 ) ，530 有 
Mismatched character mule ( 启发 式 处 理 不 匹配 的 字符 法 
则 ) ，770 
MLL Fredman, 628 


Modular hash function ( 除 留 余数 法 散 列 函数 ) ，459, 774 

Modular programming ( 模块 化 编程 ) ，26 

Monte Carlo algorithm ( 蒙特 卡 洛 法 ) ，776 

Moore, J. S., 759 

Moore's law( 摩尔 定律 ) ，194-195 

Morris, J. H., 759 

Most-significant-digit sort. See MSD string sort (高 位 优先 
的 字符 串 排序 ， 见 MSD string sort ) 

Move-to-front ( 前 移 编码 ) ，169 

MSD string sort ( 高 位 优先 的 字符 串 排序 ) ，710-718 

Multidimensional sort ( 多 维 排序 ) ，356 

Multigraph ( 多 重 图 ) ，518 

Multiple-source reachability problem ( 多 点 可 达 性 问题 ) ， 
570,797 

Multiset, 509 

Multiway mergesort ( 多 向 合并 排序 ) ，287 

Multiway trie. See R-way trie ( 多 向 单词 查找 树 ， 见 R-way 
trie ) 

Myers, E., 884 


Natural logarithm function ( 自然 对 数 函数 ) ，185 
Natural mergesort ( 自然 合并 排序 ) ，285 
Natural order ( 自然 次 序 )，337 

Negative cost cycle ( 负 权 重 的 环 ) 

See Negative cycle ( 见 Negative cycle ) 
Negative cycle ( 负 权 重 的 环 ) ，668-670, 677-681 
Nested class ( 嵌 套 类 ) ，159 
Network fow ( 网 络 流量 ) 

See Maxflow problem ( 见 Maxflow problem ) 
newO, 67 
Newton's method ( 牛顿 迁 代 法 ) ，23 
NFA. See Nondeterministic finite-state automata ( 非 确定 有 限 

状态 自动 机 ， 见 Nondeterministic finite-state automata ) 
Node data type ( Node 数据 类 型 ) ，159 

bag (背包 ) ，155 

binary search tree ( 二 又 查找 树 ) ，398 

Huffman trie ( 堆 夫 曼 单 词 查 找 树 ) ，828 

linked list ( 链表) ，142 

queue (队列 ) ，151 

red-black BST ( 红 黑 二 又 查找 树 ) ，433 

R-way trie ( R 向 单词 查找 树 ) ，734 

stack ( 栈 ) ，149 

temary search trie ( 三 向 单词 查找 树 ) ，747 
Nondeterminism ( 非 确定 ) ，794 
Turing machine ( 图 灵机 ) ，914 





索 引 <4 625 


Nondeterministic finite-state automata ( 非 确定 有 限 状态 自 
动机 ) ，794-799 

NP, 912 

NP-complete ( NP- 完全 ) ，917-918 

Null link ( 空 链接 ) ，396 

nu11 literal (nu11 字面 量 ) ，112-113 


| 
Object (对 象 ) ，67-74 
See also Object-oriented programming ( 另 见 Object- 
oriented programming ) 
behavior (行为 ) ，67,73 
identity (身份 ) ，67,73 
memory usage of ( 对 象 的 内 存 使 用 ) ，201 
state ( 对 象 的 状态 ) ，67, 73 
Object-oriented programming ( 面向 对 象 编程 ) ，64-119 
arrays of objects ( 对 象 数组 ) ，72 
creating an object ( 创建 对 象 ) ，67 
declaring an object ( 声明 对 象 ) ，67 
encapsulation ( 封装 ) ，96 
inheritance ( 继承 ) ，100 
instance (实例 ) ，73 
instantiate an object ( 实例 化 对 象 ) ，67 
invoke instance method ( 调用 实例 方法 ) ，68 
objects (对 象 ) ，67-74 
objects as arguments ( 对 象 作为 参数 ) ，71 
objects as return values ( 对 象 作为 返回 值 ) ，71 
reference (引用 ) ，67 
subtyping ( 子 类 型 ) ，100 
using objects ( 使 用 对 象 ) ，69 
Odd-length cycle in a graph ( 图 中 长 度 为 奇数 的 环 ) ，562 
OOP See Object-oriented programming ( OOP， 见 Object- 
oriented programming ) 
Operations research ( 运筹 学 ) ，349 
Optimization problem ( 最 优化 问题 ) ，913 
Ordered symbol table ( 有 序 符号 表 ) ，366-369 
floor and ceiling ( 向 上 到 整 和 向 下 取 整 函数 ) ，367 
minimum and maximum ( 最 小 元 素 和 最 大 元 素 ) ，367 
ordered array ( 有 序数 组 ) ，378 
range query ( 范围 查找 ) ，368 
rank and selection ( 排名 和 选择 ) ，367 
red-black BST ( 红 黑 二 叉 查 找 树 ) ，446 
Order of growth ( 增长 数量 级 ) ，179 
Order-of-growth classifications ( 增长 数量 级 的 分 类 ) ， 
186-188 
Order-of-growth hypothesis ( 增长 数量 级 的 猜想 ) ，180 
Order statistic ( 顺序 统计 ) ，345 
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binary search tree ( 二 又 查找 树 ) ，406 

ordered symbol table ( 有 序 符号 表 ) ，367 

quicksort ( 快速 排序 ) ，345-347 
Ormphaned object ( 孤儿 对 象 ) ，104, 137 
Out data type ( Out 数据 类 型 ) ，41, 83 
Outdegree of a vertex ( 顶点 的 出 度 ) ，566 
Output. See Input and output ( 输出 ， 见 Input and output ) 
Overfiow (溢出 ) ，51 
Overloading (过 载 ) 

constructor ( 构造 函数 ) ，84 

static method (静态 方法 ) ，24 
Overriding a method ( 重 载 方法 ) ，66, 101 


5 要 忆 
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Pcomplexity class ( P- 复杂 性 类 ) ,914 
P= NPquestion ( P= NP 问题 ) ，916 
Page data type ( Page 数据 类 型 ) ，870 
Palindrome ( 回 文 ) ，81, 783 
Parallel arrays (平行 的 数组 ) 
linear probing ( 线性 探测 ) ，471 
ordered symbol table ( 有 序 符号 表 ) ，378 
sorting (排序 ) ，357 
Parallel edge (平行 边 ) ，518, 566, 612, 640 
Parallel job scheduling ( 并 行 任务 调度 ) ，663-667 
Parallel precedence-constrained scheduling ( 优先 级 限制 下 
的 并 行 任务 调度 ) ，663, 904 
Parameterized ype See Generics ( 参数 化 类 型 ， 见 Generics ) 
Parent-link representation ( 父 链接 形式 ) 
breadth-first search tree 《广度 优先 搜索 树 ) ，539 
depth-first search tree ( 深度 优先 搜索 树 ) ，535 
minimum spanning tree ( 最 小 生成 树 ) ，620 
shortest-paths tree ( 最 短路 径 树 ) ，640 
union-find ( union-find 算法 ) ，225 
Parsing (解析 ) 
an arithmetic expression 〈 算术 表达 式 ) ，128 
a regular expression ( 正则 表达 式 ) ，800-804 
Particle data type ( Particle 数据 类 型 ) ，860 
Partitioning algorithm ( 切 分 算法 ) ，290 
2-way ( 二 向 切 分 ) ,288 
3-way (Bentley-Mcilroy) ( Bentley-Mcllroy 三 向 切 分 ) 、 
306 
3-way (Dijkstra)( Dijkstra 三 向 切 分 ) ，298 
median-of-3( 三 取样 切 分 ) ，296, 305 
median-of-5( 五 取样 切 分 ) ，305 
selection ( 基于 切 分 的 选择 算法 ) ，346-347 
Partitioning item ( 切 分 元 素 ) ，290 
Pass by reference ( 按 引 用 传递 ) ，71 


Pass by value ( 按 值 传递 ) ，24, 71 
Path. See Longest paths 
See also Shortest paths ( 路 径 ， 见 Longest paths, 
另 见 Shortest paths ) 
augmenting ( 增 广 ) ，891 
Hamihtonian ( 汉密尔顿 ) ，913, 920 
ina digraph ( 在 有 向 图 中 ) ，567 
in a graph ( 在 图 中 ) ，519 
length of ( 长 度 ) ，519, 567 
simple ( 简单 ) ，519, 567 
Path compression (路 径 压 缩 ) ，231 
了 Pattern matching. 
See Regular expression ( 模式 匹配 ， 见 Regular 
expression ) 
Perfect hash function ( 完美 散 列 琢 数 ) ，480 
Performance. See Propositions ( 性 能 ， 见 命题 ) 
Permutation ( 排列 ) 
Kendall-tau distance ( Kendall's tau 距离 ) ，356 
random ( 随机 排列 ) ，168 
ranking (排名 ) ，345 
sorting (排序 ) ，354 
Phone book ( 电话 黄页 ) ，492 
Picture data type ( Picture 数据 类 型 ) ，814 
Piping ( 管道) ，40 
Point data type ( Point 数据 类 型 ) ，77 
Pointer，111. See also Reference ( 指针 ， 另 见 Reference ) 
Safe (安全 指针 ) ，112 
Pointer sort ( 指针 排序 ) ，338 
Poisson approximation ( 泊 松 近似 ) ，466 
Poisson distribution ( 泊 松 分 布 ) ，466 
Polar angle ( 极 角 ) ，356 
Polar coordinate ( 极 坐标 ) ，77 
Poly-time reduction ( 多 项 式 时 间 问 题 的 相互 归 约 ) ，916 
Pop operation ( 出 栈 操作 ) ，127 
Postfix notation ( 后 组 记 法 ) ，162 
Postorder traversal ( 后 序 遍 历 ) 
of a digraph ( 对 于 有 向 图 ) ，578 
reverse ( 取 反 ) ，578 
Powerlaw ( 等 次 规则 ) ，178 
Pratt, V. R., 759 
Precedence-constrainted scheduling ( 优先 级 限制 下 的 任 
务 调度 ) ，574-575 
Precedence order ( 优先 级 次 序 ) 
arithmetic expressions ( 算术 表达 式 ) ，13 
regular expressions ( 正则 表达 式 ) ，789 
Prefix-free code ( 前 纺 码 ) ，826-827 
compression ( 压缩 ) ，829 
expansion ( 压缩 的 展开 ) ，828 
Huffman ( 霍 夫 曼 ) ，833 
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optimal ( 最 优 的 ) ; 833 BoyerMoore, 772 


reading and writing【 读 和 写 》 ,834-835 [a BreadthFirstpaths, 540 
trie representation ( 单词 查找 树 表示 ) ，827 Ye BST, 398, 399,407, 409, 411 
Preorder traversal ( 前 序 遍历 ) ~. BTreeSET, 872 
ofa digraph ( 对 于 无 向 图 ) ,578 。 Cat, 82 
ofa trie ( 对 于 单词 查找 树 ) ，834 CC, 544 
Prime number ( 案 数 )， .23, 774, 785 ~ CollisionSystem, 863-864 
Primitive data type ( 原始 数据 类 型 ) ，11-12 Count, 699 
memory usage of ( 内 存 使 用 ) ，200 Counter, 89 
wrapper type ( 封装 类 型 ) ，102 CPM，665 
Primitive type ( 原始 数据 类 型 ) Cycle, 547 
versus reference type ( 及 引用 类 型 ) 、110 Date; 91, 103, 247 
Prim, R.，628 DeDup, 490 
Prim's algorithm ( Prim 算法 ) ，350, 616-623 DegreesOfSeparation, 555 
eager ( 即时 实现 ) ，620-623 ~ DepthFirstOrder, 580 
lazy ( 延 时 ) ，616-619 . DepthFirstpaths, 536 
Priority queue ( 优先 队列 ) ，308-335 .~ DepthFirstSearch, 531 
binary heap ( 二 叉 堆 ) ，313-322 wy “Digraph, 569 
“change priority ( 改变 优先 级 ) ，321 < DijkstraA11PairsSP，656 
delete ( 删除 元 素 ) ，321 ~ Dijkstrasp, 655 本 
Dijkstra's algorithm ( Dijkstra 算法 ) ，652 DirectedCycle, 577 - 
Fibonacci heap ( 辈 波 纳 契 堆 ) ，628 = DirectedDFS，571 
Huffiman compression ( 震 夫 曼 压 缩 ) ，830 DirectedEdge，642 
index priority queue ( 索引 优先 队列 ) ，320-321 ” DoublingTest，177 
linked-list (链表 ) ，312 Edge, 610 
multiway heap (多 又 堆 ) ，319 EdgeweightedDigraph, 643 
“ordered array ( 有 序数 组 ) ，312 EdgeweightedGraph, 611 a 
Prim's algorithm ( Prim 算法 ) ，616 Evaluate, 129 
reductions ( 归 约 ) ，345 Event, 861 ，- 
“remove the miriimum ( 删除 最 小 元 素 ) ，321 ” Example, 245 
stability ( 稳定 性 ) ，356 .FileIndex, 50l y 
unordered array ( 无 序数 组 ) ，310 FixedCapacityStack, 135 
private abcess modifier ( private 访问 修饰 符 ) ，84 FixedCapacityStackOfStrings, 133 
Probabilistic algorithm. See Randomized algorithm ( 演算 法 ， Flips, :70 
见 Randomized algorithm ) FlipsMax, 71 
Probe (探测 ) ; 471 FlowEdge, 896 
Problem size ( 问题 规模 ) ，173 -FordFulkerson，898 
Programs ( 程序 ) FrequencyCounter, 372 
Accumulator, 93 Genone, 819-820 
Acyc1icLP，661 3 Graph, 526 
Acyclicsp, 660 — CREP, :804 
Arbitrage, 680 Heap,. 324 
Average, 39 汉 HexDunb、814 习 ， 
Bag, 155 ~ Huffman, 836 
BellmanFordSp, 674 Insertion, 251 
BinaryDump, 814 时 KMP, -768 


BinarySearch; 47 : KosarajuSCc, 587 * 
BinarySearchST, 379. 38i, 382 -KruskalMST, 627 
BlackFilter, 491 5 -= KWIC, 881 
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LazyPrimMST, 619— 
LinearprobingHashST, 470 
LookupCSV, 495 
LookupIndex, 499 

LRS, 880 

LsD, 707 

LZW, 842, 844 

MaxPQ, 318 

Merge, 271,273 

MergeBU, 278 

MSD, 712 

Multiway, 322 

NFA, 799, 802 
PictureDump, 814 
PrimMST, 622 

Queue，151 
Quick，289,291 
Quick3string, 720 
Quick3way，299 
RabinKarp, 777 
RedBlackBST, 439 
ResizingArrayQueue, 140 
ResizingArrayStack，141 
Reverse，127 

RLE，824 

Rolls, 72 

Selection, 249 
SeparateChainingHashST, 465 
SequentialSearchST, 375 
SET, 489 

She11，259 
SortCompare，256 
SparseVector, 503 
Stack, 149 
StaticSETofInts, 99 
Stats, 125 

Stopwatch, 175 
SuffixArray, 883 
SymbolGraph, 552 
ThreeSum, 173 
ThreeSumFast，190 
TopM, 311 

Topological, 581 
Transaction, 340 
TransitiveClosure, 593 
TriesT，737-741 
TST，747 

Twocolor，547 
TwoSumFast, 189 


UF, 221 
VisualAccumulator, 95 
WeightedQuickUnionUF, 228 
WhiteFilter, 491 
Whitelist, 99 
Properties ( 性 质 ) ，180 
3-sum, 180 
Boyer-Moore algorithm ( Boyer-Moore 算法 ) ，773 
insertion sort ( 插入 排序 )，255 
quicksort ( 快速 排序 ) ，343 
Rabin-Karp algorithm ( Rabin-Kar 算法 ) ，778 
red-black BST ( 红 黑 二 叉 查找 树 ) ，445 
selection sort ( 选择 排序 ) ，255 
separate-chaining ( 拉链 法 ) ，467 
shellsort ( 希 尔 排序 ) ，262 
versus proposition ( 性 质 与 命题 ) ，183 
Propositions (命题 ) ，182 
2-3 search tree (2-3 树 ) ，429 
3-sum, 182 
3-way quicksort ( 三 向 快速 排序 ) ，301 
3-way string quicksort ( 3- 向 字符 串 快速 排序 ) ，723 
arbitrage ( 套 汇 ) ，681 
B-tree (B- 树 ) ，871 
Beliman-Ford, 671, 673 
binary heap ( 二 又 堆 ) ，319 
binary search ( 二 分 查找 ) ，383 
BST ( 二 叉 查 找 树 ) ，403-404, 412 
breadth-first search ( 广度 优先 搜索 ) ，541 
brute substring search ( 暴力 子 字符 申 查 找 ) ，761 
complete binary tree ( 完全 二 又 查找 树 ) ，314 
connected components ( 连通 分 量 ) ，546 
Cook-Levin theorem ( Cook-Levin 定理 ) ，918 
critical path method ( 关键 路 径 法 ) ，666 
cut property( 切 分 定理 ) ，606 
DFS ( 深度 优先 搜索 ) ，531, 537, 570 
Dijkstra's algorithm ( Dijkstra 算法 ) ，652, 654 
flow conservation ( 流量 守恒 ) ，893 
Ford-Fulkerson ( Ford-Fulkerson 算法 ) ，900-901 
generic shortest-paths ( 通用 最 短路 径 ) ，651 
greedy MST algorithm ( 贪心 最 小 生成 树 算法 ) ，607 
heapsort ( 堆 排序 ) ，323, 326 
Huffman algorithm ( 逢 夫 曼 算法 ) ，833 
index priority queue ( 索引 优先 队列 ) ，321 
insertion sort ( 插入 排序 ) ，250, 252 
integer programming ( 整数 规划 ) ，917 
key-indexed counting 《 键 索引 计数 法 ) ，705 
Kanuth-Morris-Pratt，769 
Kosaraju's algorithm ( Kosaraju 算法 ) ，S88, 590 
Kmuskal's algorithm ( Kruskal 算法 ) ，624, 625 


~ linear-probing hash table (: 和 
linear programming ( 线性 规划 ) ， 
longest paths in DAG- Cm 
longest repeated substring ( 最 长 重复 子 字符 串 ) , 
LSD string sort ( 低位 优先 的 字符 串 排序 ) . Wo 
maxflow-mincut theorem ( 最 大 流 - 最 小 切 分 定理 ) ， 
894 
maxflow reductions ( 最 大 流 消减 ) ，906 
miergesort (合并 排序 ) ，272, 279, 282 
MSD string sort ( 高 位 优先 的 字符 串 排序 )， 
negative cycles ( 负 权重 环 ) ，669 
“parallel job scheduling with relative deadlines ( 相对 最 后 
期 限 限制 下 的 并 行 任务 调度 问题 ) ，667 
particle collision ( 粒子 的 相互 碰 挤 ) ，865 
Prim's algorithm ( Prim 算法 ) ，616, 618, 623 - 
-quick-find algorithm ( quick-find 算法 ) ，223 
quicksort ( 快速 排序 ) ，293-295 
quick-union algorithm ( quick-union 算法 ) ,226 
red-black BST ( 红 黑 二 丸 查 找 树 ) ，444, 447 
regular expression( 正则 表达 式 ) ，799, 804 
R-way trie ( R- 向 单词 查找 树 ) ，742, 743, 744 
selection sort (选择 排序 ) ，248 
separate-chaining ( 拉链 法 ) ，466, 475 
scduential search ( 顺序 查找 ) ，376 
shortest paths in DAG ( 有 向 无 环 图 中 的 最 短路 径 ) ， 
1 658 
shortest-paths optimality ( 最 短路 径 最 优 性 条 件 ) ，650 
shortest paths reductions ( 最 短路 径 归 约 ) ，905 
sorting lower bound ( 排序 下 界 ) ，280, 300 
sorting reductions ( 排序 问题 )，903 
suffix aray (后 级 数 组 ) ,882 ee 
temary search trie ( 三 向 单词 查找 树 ) ，749, 751 
topological order ( 拓 补 排序 ) ，578, 582 
universal compression ( 通用 压缩 ) ，816 
weighted quick-union ( 加 权 quick-union 算法 ) ,229 
protected modifier ( protected 人 ，110 
Protein folding ( 蛋白 质 折 乔 ) , 
public access modifier ( public 二 ) ，110 
Pushdown stack (下 压 栈 ) ，127 
See also Stack data type ( 男 见 Stack data type ) 
Push operation ( 入 栈 操作 ) ，127 


“Quadratic running time (平方 级 别 的 运行 时 间 ) ，186 
”Quantum computer ( 量子 计算 机 ) ，911 
Queue data bype (Queue 数据 类 型 ) 
analysis of ( 分析) ，198 


475 


717, 718 
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APL. 126 . 
circular linked list ( 环形 链表 ) ，165 
linked-list (链表 ) ，150-151 


resizing-array ( 可 调整 大 小 的 数组 ) ，140 
Quick-find algorithm ( Quick-find 算法 ) ，222-223 
Quicksort ( 快速 排序 ) ，288-307 

2-way partitioning ( 二 向 切 分 ) ， 

3-way partitioninig ( 三 向 切 分 )， ee 

3-way string ( 三 向 字符 串 ) ，719 

analysis of (分析) ，293-295 

and binary search trees ( 与 二 又 查找 树 ) ，403 


duplicate keys ( 重复 元 素 ) ，292 


median-of-3 ( 三 取样 切 分 ) ，296, 305 
median-of-5 ( 五 取样 切 分 ) ，305 
nonrecursive ( 非 递归 ) ，306 
random shufe ( 随机 打 乱 ) ，292 

Quick-union ( Quick-union 算法 ) ，224 227 a 
path compression (路 径 压 缩 Quick-union 算法 ) ，231 
weighted ( 加 权 Quick-union 算法 ) ，227-230 i 


i 


774-778 





Rabin-Karp algorithm ( Rabin-Kam 算法 ) ， 
Rabin, M. 0,, 759 
Radius of a graph ( 图 的 半径 ) ，559 
Radix (基数 ) ，700 
Radix sorting. See String soriing ( 基数 排序 法 ， PR 

sorting ) 
Random bag data type ( 随机 背包 数据 类 型 ) ，167 
Randomized algorithm ( 随机 化 算法 ) ，198 

Las Vegas ( 拉 斯 维 佳 斯 )，778 

Monte Carlo (蒙特 卡 洛 ) ，776 

quicksort (快速 排序 ) ，290, 307 

Rabin-Karp algorithm ( Rabin-Kam 算法 ) ，776 

3-way string quicksort ( 三 向 字符 串 快速 排序 ) ，722 
Random number (随机 数 ) ，30-32 
Random queue data type ( 随机 队列 数据 类 型 ) ，168 
Random string model ( 随机 字符 串 模型 ) ，716-717 
Range query ( 范围 查找 ) 

binary search tree ( 二 叉 查 找 树 ) ，412 

ordered symbol table ( 有 序 符号 表 ) ，368 
Rank (排名 ) 

binary search ( 二 分 查找 ) ，25, 378-381 

binary search tree ( 二 叉 查找 树 )，408, 415 

ordered symbol table ( 有 序 符号 表 ) ，367 

suffix array ( 后 组 数组 ) ，879 
Reachability ( 可 达 性 ) ，570-572, 590 
Reachable vertex( 可 达 顶 点 ) ，567 
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Reeurrence relation 
binary search ( 二 分 查找 ) ，383 
mergesort ( 合并 排序 ) ，272 
quicksort ( 快速 排序 ) ，293 
Recursion (递归 ) ，25 
See also Base case ( 另 见 Base case ) ; 
See also Recursion ( 另 见 Recursion ) 
binary search ( 二 分 查找 ) ，25, 380 
binary search tree, 401 
depth-first search ( 深度 优先 搜索 ) ，531 
Euclid's algorithm ( 欧 几 里 德 算法 ) ，4 
Fibonacci numbeis ( 斐 波 纳 契 数 ) ，57 
mergesort ( 合并 排序 ) ，272 
quicksort ( 快速 排序 ) ，289 
Red-black BST ( 红 黑 二 又 查找 树 ) ，432-447 
and 2-3 search tree ( 与 2-3 查找 树 ) ，432 
。 analysis of (分 析 红 黑 BST ) ，444-447 
color flip ( 颜色 转换 ) ，436 
color representation ( 颜色 表示 ) ，433 
defined (定义 ) ;432 
”delete the maximum ( 删除 最 大 元 案 ) ，454 
delete the minimum ( 删除 最 小 元 素 ) ，453 
deletion (删除 元 素 .) ，441-443, 455 
implementation (实现 ) ,439 
insertion (插入 ) ，437-439 
left-leaning ( 左 链 接 ) ，432 
perfect black balance ( 完美 黑色 平衡 ) ， 
rotation 【旋转 ) ，433-434 
scarch (查找 ) ，432 
Redirection ( 重 定向 ) ，40 
Reduction (问题 归 约 ) ，903-909 
defined ( 定义) ，903 
Polynomial-time ( 多 项 式 时 间 ) ，916 
linear programming ( 线性 归 划 ) ，907-909 
maxflow ( 最 大 流量 ) ，905-907 
priority queue ( 优先 队列 ) ，345 ¥ 
shortest-paths ( 最 短路 径 ) ，904-905 
sorting (排序 ) ，344-347, 903-904 
Reference (引用 ) ，67 
Reference type 《引用 类 型 】，64 
Reflexive relation ( 自 反 关系 ) ，102, 216, 247, 584 
Regular expression ( 正则 表达 式 ) ，82, 788 
building an NFA 【构造 NFA ) ，800-804 
dlosure operation( 闭 包 操 作 )，789 
concatenation operation ( 连接 操作 ) ，789 
defined (定义 ) ，790 
epsilon-transition (E- 转换 ) ，795 
match transition ( 匹配 转换 ) ，795. 
mondeterministic finite-state automaton ( 非 确定 有 限 状 


432 


态 自 动机 ) ，794-799 
or operation ( 或 操作 ) ，789 
parentheses ( 括号 ) ，789 
NNs+，82 
: shorteuts ( 缩 略 写法 ) ，791 
simulating an NFA ( NFA 的 模拟 ) ，797-799 
Rehashing ( 重新 散 列 ) ，474 
Relation (关系 ) 
antisymmetric ( 反对 称 性 ) ，247 
equivalence ( 等 价 性 ) ，102, 216, 584 
reflexive ( 自 反 性 ) ，102, 216, 247, 584 
symmetric ( 对 称 性 ) ，102, 216, 584 
total order ( 完整 的 比较 序列 ) ，247 
transitive ( 传递 性 ) ，102, 216, 247, 584 
Residual network ( 剩余 网 络 ) ，895-897 


.Resizing array ( 可 调整 大 小 的 数组 ) ，136-137 


binary heap (二 又 堆 ) ，320 
hash table ( 散 列表 ) ;474-475 
queue (队列 ) ，140 
stack ( 栈 ) ，136 
Retum value ( 返回 值 ) ，22 


” Reverese postorder traversal ( 道 后 序 遍历 ) ，578 


Reverse ( 反 向 ， 道 向 ) 
a linked list ( 将 链表 反 转 ) ，165-166 
an array ( 舌 倒 数组 元 素 的 顺序 ) ,21 
array iterator (数组 反 向 迁 代 器 ) ，139 
with a stack ( 将 栈 中 的 元 素 逆 序 排列 ) ，127 
Reverse-delete algorithm ( 逆向 删除 算法 ) ，633 
Reverse graph ( 反 转 图 ) ，586 
Reverse postorder ( 道 后 序 ) ，578 
Ring buffer data type ( 环形 缓冲 区 数据 类 型 ) ，169 
RLE. See Run-length encoding 
Robson,J., 412 
Rooted tree ( 一 棵 树 ) ，640 
Rotation in a BST ( BST 中 的 旋转 操作 ) ，433-434, 452 
Run-length encoding ( 游程 编码 ) ，822-825 
Running time ( 运行 时 间 ) ，172-173 
analysis of ( 分 析 运行 时 间 ) ，176 
constant ( 常数 级 别 的 运行 时 间 ) ，186 
cubic (立方 级 别 的 运行 时 间 ) ，186 
doubling ratio (倍率) ，192 
exponential ( 指数 级 别 的 运行 时 间 ) ，186 
inner loop( 内 循环 ) ，180 
linear ( 线性 级 别 的 运行 时 间 ) ，186 
logarithmic ( 对 数 级 别 的 运行 时 间 ) ，186 
measuring ( 测量 准确 的 运行 时 间 ) ，174 
order of growth ( 运行 时 间 的 增长 数量 级 ) ，179 
quadratic ( 立方 级 别 的 运行 时 间 ) 。186 
tilde approximation ( 近似 ) .，178-179 


Run-time error See Error; See also Exception ( 运行 时 间 错 
误 , 见 Emor， 另 见 Exception ) 

R-way trie ( R 向 单词 查找 树 ) ，730-744 
Alphabet ( 字母 表 ) ，741 
analysis of ( 分 析 ) ，742-743 
collecting keys ( 查找 所 有 键 ) ，738 
deletion ( 删除 ) ，740 
insertion ( 插入 ) ，734 
longest prefix (最 长 前 缀 ) ，739 
memory usage of ( 内 存 使 用 空间 ) ，744 
one-way branching ( 单 向 分 支 ) ，744-745， 
representation ( 表示 ) ，734 
search ( 查找 ) ，732-733 
wildcard match ( 通配符 匹配 ) ，739 


S 


Safe pointer ( 安全 指针 ) ，112 

Sample mean ( 采样 期 望 值 ) ，30 

Samplesort ( 取样 排序 ) ，306 

Sample standard deviation ( 采样 标准 差 ) ，30 

Sample variance (采样 ) ，30 

Scheduling ( 调度 ) 
critical-path method ( 关键 路 径 法 ) ，664-666 
load-balancing problem ( 负载 均衡 问题 ) ，349 
LPT first (最 大 优先 ) ，349 
parallel precedence-constrained ( 优先 级 限制 下 的 并 

行 ) ，663-667 

Precedence constraint ( 优先 级 限制 ) ，574-575 
relative deadlines ( 相对 最 后 期 限 ) ，666 
SPT first ( 最 小 优先 ) ，349 

Scientific method ( 科学 方法 ) ，172 

Seope of a variable ( 变量 作用 域 ) ，14, 87 

Search hit ( 查找 命中 ) ，376 

Searching ( 查找 ) ，360-513. See also Symbol table ( 另 
见 Symbol table ) 

Search miss ( 查找 未 命中 ) ，376 

Search problem ( 搜索 问题 ) ，912 

Sedgewick, R., 298 

Selection (选择 ) ，345 
binary search tree ( 二 又 查找 树 ) ，406 
ordered symbol table ( 有 序 符号 表 ) ，367 
suffix array ( 后 丝 数 组 ) ，879 

Selection client ( 选择 用 例 ) ，249 

Selection sort ( 选择 排序 ) ，248-249 

Self-loop ( 自 环 ) ，518, 566, 612, 640 

Separate-chaining ( 拉链 法 ) ，464-468 

Sequential allocation ( 顺序 存储 ) ，156 


Sequential search ( 顺序 查找 ) ，374-377 
Set data type ( Set 数据 类 型 ) ，489-491 
Shannon entropy ( 香农 信息 量 ) ，300-301 
Shellsort ( 希 尔 排序 ) ，258-262 
Shortest ancestral path ( 最 短 先导 路 径 ) ，598 
Shortest augmenting path ( 最 短 增 广 路 径 ) ，897 
Shortest path ( 最 短路 径 ) ，638 
Shortest paths problem ( 最 短路 径 问 题 ) ，638-693 
all-pairs ( 顶点 对 ) ，656 
arbitrage detection ( 套 汇 检测 ) ，679-681 
Bellman-Ford ( Bellman-Ford 算法 ) ，668-678 
bitonic ( 双 调 ) ，689 
bottleneck ( 瓶颈 ) ，690 
certification ( 验证 ) ，651 
critical edge ( 关键 边 ) ，690 
Dijkstra's algorithm ( Dijkstra 算法 ) ，652_657 
edge relaxation ( 边 放 松 ) ，646-647 
edge-weighted DAG ( 加 权 有 向 无 环 图 ) ，658-667 
generic algorithm ( 通用 算法 ) ，651 
ineligible edge ( 无 效 边 ) ，646 
in Euclidean graphs ( 在 欧 拉 图 中 ) ，656 
monotonic ( 单调) ，689 
negative cycle ( 负 权重 环 ) ，669 
Negative cycle detection ( 负 权重 环 检测 ) ，670 
negative weights ( 负 权重 ) ，668-681 
optimality conditions ( 最 优 条 件 ) ，650 
parent-link ( 父 结 点 的 链接 ) ，640 
reduction ( 问题 归 约 ) ，904-905 
shortest-paths tree ( 最 短路 径 树 ) ，640 
single-source ( 单 点 ) ，639, 654 
点 ) ，656 
undirected graph (无 向 图 ) ，654 
vertex relaxation ( 顶点 放松 ) ，648 
Shortest-processing-time-first mule ( 最 小 优先 法 则 ) ， 
349, 355 
Short primitive data type ( short 原始 数据 类 型 ) ，13 
Shuffling ( 打 乱 ) 
alinked list ( 打 乱 链表 ) ，286 
an array ( 打 乱 数组 ) ，32 
quicksort ( 打 乱 快速 排序 结果 ) ，292 
Side effect ( 副作用 ) ，22, 108 
Signature ( 签名 ) 
instance method ( 实例 方法 签名 ) ，86 
static method ( 静态 方法 签名 ) ，22 
Simple digraph ( 简单 有 向 图 ) ，567 
Simple graph ( 简单 图 ) ，518 
Simplex algorithm ( 单纯 形 法 ) ，909 
Single-source problems ( 单 点 问题 ) 
connectivity ( 连通 性 ) ，556 
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directed paths ( 有 向 路 径 ) ，573 


longest paths in DAG ( 有 向 无 环 图 中 的 最 长 路 径 ) ，” 
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paths (路径 ) ，534 

reachability ( 可 达 性 ) ，570 

shortest directed paths ( 最 短 有 向 路 径 ) ，573 


shortest paths in undirected graphs ( 无 向 图 中 的 最 短路 


径 ) ，654, 904 
shortest paths ( 最 短路 径 ) ，538, 639 
Social network (社交 网 络 】 ，517 
Software cache ( 缓存 ) ，391, 451, 462 
Sollin, M., 628 
Sorting (排序 ) ，242-359 
See also String sorting ( 另 见 字符 串 排序 ) 
3-way quicksort ( 三 向 快速 排序 ) ，298-301 
binary search tree ( 二 又 查找 树 ) ，412 
certification ( 认证 ) ，246, 265 
Comparable, 246-247 
compare-based ( 基于 比较 的 排序 算法 ) ，279 
complexity of ( 排序 复杂 性 ) ，279-282 
cost model ( 排序 的 成 本 模型 ) ，246 


entropy-optimal ( 平均 信息 量 最 优 的 排序 ) ，296-301 


extra memory ( 额外 的 内 存 使 用 ) ，246 
heapsort ( 堆 排 序 ) ，323-327 
indirect ( 间接 排序 ) 。286 
in-place ( 原 地 排序 ) ，246 
insertion sort ( 揪 人 排序 ) ，250-252 
inversion ( 反 向 排序 ) ，252 
lower bound ( 下界) ，279-282, 306 
mergesort ( 合并 排序 ) ，270-288 
partially-sorted array ( 部 分 有 序 的 数组 ) ，252 
pointer ( 指针 ) ，338 
primitive types ( 原始 数据 类 型 ) ，343 
quicksort ( 快速 排序 ) ，288-307 
reduction ( 归 约 问题 ) ，903-904 
reductions ( 归 约 ) ，344-347 
selection sort ( 选择 排序 ) ，248-250 
shellsort ( 希 尔 排序 ) ，258-262 
stability ( 稳定 性 ) ，341 
suffix array ( 后 组 数组 ) ，875-885 
system sort ( 系统 排序 ) ，343 
Source-sink shortest paths ( 给 定 两 点 的 最 短路 径 ) ，656 
Spanning forest ( 生成 森林 ) ，520 
Spanning-trec ( 生成 树 ) ，520, 604 
Sparse graph ( 稀 芍 图 ) ，520 
Sparse matrix ( 稀 朴 矩阵 ) ，510 
Sparse vector ( 稀 朴 向 量 ) ，502-505 
Specification problem ( 说 明 书 问题 ) ，97 
SPT See Shortest paths tree; 

















See also Shortest-processing-time-first rule ( 最 短路 
径 树 ， 见 Shortest paths tree， 另 见 Shortest- 
-processing-time-first rul ) 
st-cut (st- 切 分 ) ，892 


- st-flow (st- 流量 配置 ，888 


st-flow network ( st- 流量 网 络 ) ，888 
Stability ( 稳定 性 ) ，341, 355 
insertion sort ( 插入 排序 ) ，341 
key-indexed counting ( 键 索引 计数 法 ) ，705 
LSD string sort ( 低位 优先 的 字符 囊 排序 ) ，706 
mergesort ( 合并 排序 ) ，341 
priority queue ( 优先 队列 ) ，356 
Stack data type ( 栈 数据 类 型 ) ，127 
analysis of ( 分 析 栈 ) ，198, 199 
array implementation ( 实现 保存 在 栈 中 的 数组 ) ，132 
fixed-capacity ( 定 容 栈 ) ，132-133  ， “ 
Beneric ( 泛 型 ) ，134 
iteration ( 选 代 ) ，138-140 
linked-list (链表 ) ，147-149 
resizing array ( 可 调整 大 小 的 数组 ) ，136 
Standard deviation ( 标准 差 ) ，30 
Standard drawing ( 标准 图 像 ) ，36, 42-45 
Standard input ( 标准 输入 ) ，36, 39 


Standard libraries ( 标准 库 ) ，30 


Draw, 82-83 
In, 41, 82-83 
Out, 41, 82-83 
StdDraw, 43 
StdIn, 39 
Stdout，37 
StdRandom, 30 
StdStats, 30 
Stopwatch, 174-175 
Standard output ( 标准 输出 ) ，36, 37-38 
Static method (静态 方法 ) ，22-25 
argument ( 参数) ，22 
-defining a (定义 静态 方法 ) ，22 
_invoking a( 调用 静态 方法 ) ，22 
overloaded ( 重 载 静态 方法 ) ，24 
pass by value ( 按 值 传递 ) ，24 
recursive (递归 ) ,25 
retum statement ( 返回 语句 ) ，24 
retum value ( 返回 值 ) ，22 
side effect ( 副作用) ，22, 24 
signature (签名 ) ，22 
Static variable (静态 变量 ) ，113 
Statistics ( 统计 学 ) 
chi-square ( 卡 方 检验 ) ，483 
median ( 中 位 数 ) ，345 


minimum and maximum ( 最 小 值 和 最 大 值 ) ，30 
order ( 顺序) ，345 
sample mean ( 采样 期 望 值 ) ，30, 125 
sample standard deviation ( 采样 标准 差 ) ，30 
sample variance ( 采样 方差 ) ，30, 125 
StdDraw library, 43 
StdIn library, 39 
StdOut library, 37 
StdRandom library, 30 
StdStats library, 30 
Steque data type ( Steque 数据 类 型 ) ，167, 212 
Stirling's approximation ( 斯 特 灵 公式 ) ，185 
Stopwatch data type ( Stopwatch 数据 类 型 ) ，174-175 
String data type (字符 串 数据 类 型 ) ，34, 80-81 
API，80 
characters (字符 ) ，696 
charAt() method (charAt() 方法 ) ，696 
concatenation ( 字符 串 的 连接 ) ，34, 697 
conversion ( 字符 叫 类 型 转换 ) ，102 
immutability ( 不 可 变性 ) ，696 
indexing (索引 ) ，696 
indexOf() method (index0f() 方法 ) ，779 
length ( 字符 串 长 度 ) ，696 
length() method ( length() 方法 ) ，696 


titeral (字面 最) ，34 Es 


memory usage of ( 内 存 使 用 ) ，202 

+ operator (+ 运算 符 ) ，80, 697 

substring extraction ( 提取 子 字符 申 ) ，696 

substring() method ( substring() 方法 ) ，696 
String processing (字符 申 处 理 ) ，80-81, 694_851 

data compression ( 数据 压缩 ) ，810-851 

Tegular expression( 正则 表达 式 ) ，7: 

sorting (排序 ) ，702-729 

substring search ( 于 字符 申 查找 ) ，758-785 

Suffix armay ( 后 级 数组 ) ，875-885 

tries ( 单词 查找 树 ) ，730-757 


String search. See Substring search; See also Trie ( 字符 


查找 ， 见 Substring search， 另 见 Trie ) 
String sorting ( 字符 串 排序 ) ，702-729 
3-way quicksort ( 三 向 快速 排序 ) ，719-723 
key-indexed counting 〈 键 索引 计数 法 ) ，703 
LSD string sort ( 低位 优先 的 字符 申 排序 ) ，706-709 
MSD string sort ( 高 位 优先 的 字符 串 排序 ) ，710-718 
Strong componcnt ( 强 连通 分 量 ) ，584 
Strong connectivity ( 强 连通 性 ) ，584_591 


Strongly connected component. See Strong component ( 强 


连通 的 分 量 ， 见 Strong component ) 
Strongly connected relation( 强 连 通 的 关系 ) ，584 


- Strongly typed language ( 强 类 型 语言 ) ，14 Ee 
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Subclass ( 子 类 ) ，101 
Subgraph ( 子 图 ) ,519 
Sublinear running time ( 次 线性 运行 时 间 ) ，716, 779 
Substring extraction ( 子 字符 串 提取 ) 
memory usage of ( 内 存 使 用 ) ，202-204 
substring() method ( substring() 方法 ) ，696 
Substring search ( 子 字符 串 查找 ) ，758-785 
Boyer-Moore ( Boyer-Moore 算法 ) ，770-773 
brute-force ( 暴力 查找 ) ，760-761 
index0fO method ( index0f() 方法 ) ，779 
Knuth-Morris-Pratt, 762-769 
Rabin-Kam，774-778 
Subtyping ( 子 类 型 ) ，100 
Suffix array ( 后 弘 数组 ) ，875-885 
Suffix array data type ( 后 级 数组 数据 类 型 ) ，879 
Suffix-free code ( 后 组 码 ) ，847 
Superclass ( 父 类) ，101 
Symbol digraph ( 符号 有 向 图 ) ，581 
Symbol graph ( 符号 图 ) ，548-555 
Symbol table ( 符号 表 ) ，360-513 
2-3 search tree ( 2-3 查找 树 ) ，424-431 
API，363, 366 
associative array ( 关联 数组 ) ，363 
balanced scarch tree ( 平衡 查找 树 ) ， 
binary search ( 二 分 查找 ) ，378-384 
binary search tree ( 二 叉 查找 树 ) ，396-423 
B-tree (B- 树 ) ，866-874 
cost model ( 成 本 模型 ) ，369 
defined ( 符号 表 的 定义 ) ，362 
duplicate key policy ( 重复 元 素 ) ，363 
floor and ceiling ( 向 上 取 整 和 向 下 取 整 ) ，367 
hash table ( 散 列表 ) ，458-485 
insertion ( 插入 ) ，362 
key equality ( 等 值 键 ) ，365 
lazy deletion ( 延 时 删除 ) ，364 
linear-probing ( 线性 探测 ) ，469-474 
minimum and maximum ( 最 小 元 素 和 最 大 元 素 ) ，367 
mull value (nu11 值 ) ,364 
ordered (有 序 符号 表 ) ，366-369 
ordered array ( 有 序数 组 ) ，378 
range query ( 范围 查找 ) ，3 
rank and selection ( 排名 和 选择 ) ，367 
red-black BST ( 红 黑 二 又 查找 树 ) ，432-447 
R-way tric (RR 向 单词 查找 树 ) ，732- 745- 
scarch (查找 ) ，362 
“separate-chaining ( 拉链 法 ) ，464_468 
“sequential search ( 顺序 查找 ) , 374 一 
string keys ( 字符 囊 键 ) ，730_757 
teniary seareh trie ( 三 向 单词 查找 树 ) ， 


424-457 


746-751 
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trie (单词 查找 树 ) ，730-757 

unordered linked list ( 无 序 链表 ) ，374 
Symmetric order ( 树 的 对 称 性 ) ，396 
Symmetric relation ( 对 称 关系 ) ，102, 216, 584 
Szpankowski, W., 882 





Tail vertex ( 顶点 的 尾 ) ，566 
Tale of Two Cities ( 双城记 ) ，371 
Tandem repeat ( 申 联 重复 查找 ) ，784 
Tarjan, R. E., 590, 628 
Terminal window (终端 窗口 ) ，10, 36 
Ternary search trie ( 三 向 单词 查找 树 ) ，746-751 
alphabet (字母 表 ) ，750 
analysis of ( 分析 ) ，749 
collecting keys ( 查找 所 有 键 ) ，750 
deletion ( 删除 ) ，750 
insertion (搬入 ) ，746 
one-way branching ( 单 向 分 支 ) ，751, 755 
prefix match ( 匹配 前 缀 ) ，750 
search ( 查找) ，746 
wildeard match ( 通配符 匹配 ) ，750 
Theseus ( 忒 修 斯 ) ，530 
this reference (this 引用 ) ，87 
Threading ( 线性 符号 表 ) ，420 
Tilde notation (近似 ) ，178, 206 
Time-driven simulation ( 时 间 驱 动 模拟 ) ，856 
Timing a program ( 为 应 用 程序 计时 ) ，174-175 
Top-down 2-3-4 tree ( 自 顶 向 下 的 2-3-4 树 ) ，441 
Top-down mergesort ( 自 顶 向 下 的 合并 排序 ) ，272 
Topological sort ( 拓 补 排序 ) ，574-583 
depth-first search ( 深度 优先 搜索 ) ，578 
queue-based algorithm ( 基于 队列 的 算法 ) ，599 
toString() method ( toString() 方法 ) ，66, 102 
Total order ( 完整 的 比较 序列 ) ，247 
Transaction data type ( 事务 数据 类 型 ) ，78-79 
compareC) ，340 
compareTo() ，266, 337 
hashCode(), 462 
Transitive closure ( 传递 闭 包 ) ，592 
Transitive relation ( 传递 关系 ) ，102, 216, 247, 584 
Transpose a matrix ( 转 置 矩阵 ) ，56 
Tree ( 树 ) 
2-3 search tree ( 2-3 查找 树 ) 
See 2-3 search tree ( 见 2-3 search tree ) 
binary. See Binary tree (二进制 ， 见 Binary tree ) 
binary search tree ( 二 又 查找 树 ) 


See Binary search tree ( 见 Binary search tree ) 
balanced search tree. See Balanced search tree ( 平衡 查 
找 树 ， 见 Balanced search tree ) 
binomial ( 二 项 树 ) ，237 
depth of a node ( 树 中 的 节点 深度 ) ，226 
height of ( 树 的 高 度 ) ，226 
inorder traversal ( 中 序 遍历 ) ，412 
min spanning tree. See Minimum spanning tree ( 最 小 生 
成 树 ， 见 Minimum spanning tree ) 
parent-link ( 父 结 点 的 链接 ) ，535, 539 
preorder traversal ( 前 序 遍 历 ) ，834 
rooted ( 根 结 点 ) ，640 
size ( 树 的 大 小 ) ，226 
spanning tree See Spanning tree ( 生成 树 ， 见 Spanning 
tree) 
undirected graph (无 向 图 ) ，520 
union-find ( union-find 算法 ) ，224-226 
Tremaux exploration ( Tremaux 搜索 ) ，530 
Triangular sum ( 等 差 数列 之 和 ) ，185 
Trie ( 单词 查找 树 ) ，730-757 
See also R-way trie; 
See also Ternary search trie ( 见 R-way trie， 另 见 
Temary search trie ) 
collecting keys ( 查找 所 有 键 ) ，731 
Lempel-Ziv-Welch, 840 
longest prefix match ( 匹配 最 长 前 级 ) ，731, 842 
one-way branching ( 单 向 分 支 ) ，744-745, 751, 755 
prefix-free code ( 前 级 代码 ) ，827 
preorder traversal ( 前 序 遍 历 ) ，834 
reading and writing ( 读 和 写 ) ，834-835 
wildcard match ( 通配符 匹配 ) ，731 
Tufte plot (Tufte 图 ) ，456 
Tukey ninther，306 
Turing,A.，910 
Turing machine ( 图 灵机 ) ，910 
Church-Turing thesis ( 括 奇 - 图 灵 论题 ) ，910 
computability ( 可 计算 性 ) ，910 
nondeterministic ( 非 确定 性 的 ) ，914 
universality ( 普遍 性 ) ，910 
Type conversion ( 类 型 转换 ) ，13 
Type erasure ( 类 型 擦 除 ) ，158 
Type parameter ( 类 型 参数 ) ，122, 134 


i 


Undecidability ( 不 可 判定 性 ) ，97, 817 
Undirected graph (无 向 图 ) 
acyclic ( 无 环 ) ，520 








人 索 引 4 635 





adjacency-lists ( 邻接 表 ) ，524 S vertex (顶点 ) ，518 
adjacency-matrix ( 邻接 矩阵 ) ，524 ” weighted (权重 ) 

adjacency-sets ( 邻接 集 ) ，527 3 - See Edge-weighted graph ( 见 Edge-weighted graph ) 
adjacent vertex ( 邻接 顶点 ) ，519 Unicode ( Unicode 编码 ) ，696 

articulation point ( 关节 点 ) ，562 Uniform hashing ( 均匀 散 列 ) ，463 

biconnected ( 双向 连通 的 ) ，562 ”Union-find (union-find 算 法 ) ，216-24j 
bipartite ( 二 分 的 ) ，521, 546_547, 562 区 depth-first search ( 深度 优先 搜索 ) ，546 
breadth-first search ( 广度 优先 搜索 ) ，538-542 binomial tree ( 二叉树 ) ，237 

bridge ( 桥 ) ，562 Boruvka's algorithm ( Boruvka 算法 ) ，636 

center (中 点 ) ，559 | dynamic connectivity ( 动态 连通 性 ) ，216 
connected ( 连通 的 ) ，519 forest-of-trees ( 森林 ) ，225 

connected component ( 连通 分 量 ) ，519 Kmuskals algorithm (Kruskal 算法 ) ，625 
connected to relation (连通 关系 ) ，519 “parent-link ( 父 链接 ) ，22 

connectivity ( 连通 性 ) ，534, 543_546 Path compression ( 路 径 压 缩 ) ，231, 237 

cycle ( 环 ) ,519 ”quiek-find ( quick-find 算法 ) ，222_223 

cycle detection ( 环 检测 ) ，546-547 quick-union ( quick-union 算法 ) ，224_227 

defined (定义 ) ，518 和 weighted quick-find ( 加 权 quick-find 算法 ) ，236 
degree ( 度 ) ，519 weighted quick-union ( 加 权 quick-union 算法 ) ，227_231 
:dense (稠密 ) ;520- - .weighted quick-union by height ( 根据 高 度 加 权 的 
depth-first search ( 深度 优先 搜索 ) ，530_533 quick-union 算法 ) ; 237 

diameter ( 直径 ) ，559 本 weighted quick-union with path compression ( 使 用 路 径 
edge ( 边 ) ; 518 ng 压缩 的 加 权 quick-union 算法 ) ，237 
edge-conneeted ( 边 连通 的 ) ，562 ”Uniquely decodable code ( 解码 方式 唯一 的 编码 ) ，826 
edge-weighted (加 权 ) Unittesting ( 单元 测试 ) ，26 

~ See Edge-weighted graph ( 见 Edge-weighted graph ) Universal data compression ( 通用 数据 压缩 ) ，816 
Euler tour ( 欧 拉 回 路 ) ，562 Universality (通用 性 ) ，910 

forest ( 森林 ) ，520 Upper bound (上 界 ) ，206, 207, 281 


girth ( 周 长 ).，559 

Hamilton tour ( 汉密尔顿 回路 ) ，562 
interval graph ( 区 间 图 ) ，564 
isomorphism ( 同 构 ) .，561 2 ~ 
multigraph ( 多 重 图 ) ，518 Wy Value type parameter ( 值 类 型 参数 ) * 





odd eycle detection ( 长 度 为 奇数 的 环 检测 ) ，562 symbol table ( 符号 表 ) ，36， 

Parallel edge ( 平行 边 ) ，518 trie ( 单词 查找 树 ) ，730 

path ( 路径) ，519 一 Variable (变量 ) ，10 

radius (半径 ) ，559 Variable-length code ( 变 长 编码 ) ，826 
self-loop ( 自 环 ) ,518 M Variance ( 共 变 ) ，3 

simple (简单 ) ，518 3 .Vector data type ( 向 量 数据 类 型 ) ，106 
simple cycle (简单 环 ) ，519, 567 Vertex ( 顶点 ) 

simple path ( 简单 路 径 ) ，519 ; adjacent ( 邻接 ) ，519 

single-source connectivity ( 单 点 连通 性 ) ，556 connected to relation ( 连通 关系 ) ，519 
single-source paths【 单 点 路 径 ) ，534 degree of ( 度 ) ，519 

Single-source shortest paths ( 单 点 最 短路 径 ) ，538 eccentricity ( 离心 率 ) ，559 
spanning forest ( 生成 森林 ) ，520 ”” “head and tail ( 头 和 尾 ) ，566 
spanning tree 《生成 树 ) , 520 indegree and outdegree ( 人 度 和 出 度 ) ; 566 
sparse ( 稀 芍 ) 、520 reachable ( 可 达 ) ，567 

subgraph ( 子 图 ) ，519 四 source (点 )，528 外 - 
tree ( 树 ) ，520 Vertex cover problem ( 顶点 萎 盖 问题 ) ，920 


twe-eolorability (两 种 颜色 着 色 ) ，546_547.562 - Vertex relaxation ( 顶点 放松 ) ，648 


636 本 索 引 


Virtual terminal ( 虚拟 终端 ) ，10 ‘Weiner, P., 884 
Vyssotsky"s algorithm ( Vyssotsky 算法 ) ，633 ‘Welch, T., 839 

while loop (while 循 环 ) ,15 

Whitelist filter ( 白 名 单 过 滤器 ) ，8, 48-49, 99, 491 
Wide interface ( 宽 接 口 ) ，160, 557 

Wildcard character ( 通配符 ) ，791 





Web search ( 网 络 搜索 ) ，496 Wildcard match ( 通配符 匹配 ) ，750 
‘Weighted digraph. Worst-case guarantee ( 对 最 坏 情况 下 的 性 能 保证 ) ，197 
See Edge-weighted digraph ( 加 权 有 向 图 ， 见 Edge- Wrapper type( 封装 类 型 ) ，102, 122 
weighted digraph ) 


Weighted edge ( 加 权 边 ) ，604, 638 
Weighted extemal path length ( 加 权 外 部 路 径 长 度 ) ，832 
Weighted graph. See Edge-weighted graph ( 加 权 图 ， 见 
Edge-weighted graph ) Ziv, J]., 839 
Weighted quick-union ( 加 权 quick-union 算法 ) ，227-231 。 。 Zero-based indexing ( 起 始 案 引 是 0) ，53 
Weighted quick-union with path compression ( 使 用 路 径 压 。 Zipf's law ( Zipf 法则 ) ，393 
缩 的 加 权 quick-union 算法 ) ，237 
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(第 4 版 ) 


本 书 全 面 讲述 算法 和 数据 结构 的 必 备 知识 ， 具 有 以 下 几 大 特色 。 


人 算法 领域 的 经 典 参 考 书 

Sedgewick 畅 销 著 作 的 最 新 版 ， 反 映 了 经 过 几 十 年 演化 而 成 的 算法 核心 知识 体系 

令 内 容 全 面 

全 面 论述 排序 、 搜 索 、 图 处 理 和 字符 串 处 理 的 算法 和 数据 结构 ， 涵 盖 每 位 程序 员 应 知 应 会 的 50 种 算法 

令 全 新 修订 的 代码 

全 新 的 Java 实 现代 码 ， 采 用 模块 化 的 编程 风格 ， 所 有 代码 均 可 供 读者 使 用 

与 实际 应 用 相 结合 

在 重要 的 科学 、 工 程 和 商业 应 用 环境 下 探讨 算法 ， 给 出 了 算法 的 实际 代码 ， 而 非 同类 著作 常用 的 伪 代 码 

人 富 于 智力 趣味 性 

简明 扼要 的 内 容 ， 用 丰富 的 视觉 元 素 展示 的 示例 ， 精 心 设计 的 代码 ， 详 尽 的 历史 和 科学 背景 知识 ， 各 种 难度 的 练习 ， 这 一 
切 都 将 使 读者 手 不 释 卷 

争 科学 的 方法 

用 合适 的 数学 模型 精确 地 讨论 算法 性 能 ， 这 些 模型 是 在 真实 环境 中 得 到 验证 的 

人 与 网 络 相 结合 

配套 网 站 algs4.cs.princeton.edu 提 供 了 本 书 内 容 的 摘要 及 相关 的 代码 、 测 试 数据 、 编 程 练习 、 教 学 课件 等 资源 
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